Простое решение двух проблем с текстами из формата djvu
Коллеги, здравствуйте.
Очередное видео и две программы, думаю, будут интересны тем книжникам, кто берет в работу тексты, преобразованные в doc или docx из djvu формата.
С этими текстами есть пара проблем. Во-первых, если в строке на правом краю полосы дефис, то нельзя понять, перенос ли это слова, или это дефис составного слова (во-первых, когда-либо и пр.). Можно, конечно, удалить все эти дефисы на правом краю, и пусть корректор в процессе вычитки всё исправит. На мой взгляд, это плохое решение, неуважительное по отношению к корректору.
Да, мой опыт говорит, что примерно на сто переносов только один дефис. И можно вроде как расстаться с этими знаками переносов. Но скрипт поступает интереснее: во-первых, он в каждом слове, из которого выкинут перенос (или дефис), окрашивает буквы, что шли до дефиса. И хоть слово «как-нибудь» станет теперь таким «какнибудь», в нём буквы «как» будут окрашены. Это позволит восстановить те слова, где должен быть дефис.
Во-вторых, все такие слова собираются в отдельном файле в формате «было > стало»: как-нибудь > какнибудь. И корректору будет просто, просмотрев не всю верстку, а только список этих слов, отметить те, где должен быть дефис.
Вторая проблема — сноски в этих текстах. Они есть только для нас в том плане, что мы понимаем, как выглядит сноска в тексте, но для индизайна это обычный текст. Ручная работа по их восстановлению скучна и неинтересна. А если будут и такие сноски, что не уместились на одной странице и перетекли на следующую, или следующие, то это уже просто нервотрёпка. А скриптом эта работа делается с удовольствием.
В архиве есть файл с несколькими ссылками на книгу с обилием сносок; есть doc-файл одной из глав. Можете попробовать на живом примере, даже своих вариантов придумывать не надо. Информация о получении программ в файле Readme.doc.
Смотрите видео:
Это архив, деморежим до 26 октября 2017 г.:
https://www.dropbox.com/s/ybm8yn5pygnsejg/djvuTextProc-demo.zip
Последние комментарии