Взять из вёрстки, распознать и поместить обратно
(Как организовать транспортировку текста-картинки в программу распознавания, и как возвращать текст в то пространство, где была взята эта текстовая картинка)
Меня поймут те, кто хоть раз тратил время на тягомотную работу, когда надо было на место растрированного текста помещать фреймы с уже распознанным текстом. Масса мелкой работы по выделению кусочков, приведению в порядок распознанного текста, поиск нужных фрагментов, бесконечное рисование фреймов, помещение в них текста, назначение стилей, поиск оптимального положения каждого фрейма…
Тосссскаааа…. Хорошо бы, чтобы такой верстальной муторной скучищи больше не было.
Я думал, что я уже в жизни всю свою такую работу давно сделал, но тут она неожиданно свалилась. И как всегда, срочно. Больше ста страниц сканов редкой книги стихов на французском языке. Слева скан – справа перевод, и то, что слева, надо сделать текстом. Ну и конечно вся эта морока, когда стихи оригинал и перевод один напротив другого — строфы должны стоять на одной базовой линии. В данном случае строки везде длинные, часто не умещающиеся в формат. Так что надо держать под контролем и левую и правую стороны.
Но прежде чем заняться оформлением, надо все эти сканы превратить в текст. Есть масса вариантов, как сделать это. Для меня определяющим было — быстро завершить эту работу. Распознающих программ много, у всех примерно одинаковое качество результата, поэтому тут важно не какой программой распознавать, а как организовать транспортировку текста-картинки в программу распознавания, и как возвращать текст в то пространство, где была взята эта текстовая картинка.
И я не знаю способа лучше, чем сделать скрипт и поручить ему всю эту тягомотину.
Работа его проста и понятна:
— рисуешь прямоугольник вокруг стиха;
— нажимаешь кнопку, и область, накрытая этим прямоугольником, оказывается в программе Acrobat;
— распознаешь этот текст в акробате и берешь его в буфер;
— нажимаешь кнопку, прямоугольник превращается в текстовый фрейм, в него помещается из буфера текст. К фрейму прикладывается выбранный объектный стиль — непрозрачная заливка скрывает картинку, тексту назначается абзацный стиль.
Потом новый прямоугольник – кнопка – акробат — буфер – кнопка – фрейм с текстом.
Я убеждён, что вёрстка должна быть в кайф, и тут получилась игрушка, с которой я развлёкся с этой больше чем сотней страниц, и это было в удовольствие. Одна мысль, сколько надо было бы делать руками на каждой странице, чтобы получать тот же результат, поднимала настроение на высочайший уровень.
Вот видео:
https://youtu.be/_iX597lEtSQ
Вот архив с программой:
https://www.dropbox.com/s/sh92hpa2k832piv/OCR-demo.zip?dl=0
Деморежим на 10 дней.
Варианта «работает по выходным» больше не будет.
И это не обязательно только стихи. Рисунки с подписями, чертежи, графики, да масса случаев, когда качество скана устроило бы, если бы не драный текст. Но программы распознавания хорошо справляются и с драным текстом, так что оставлять картинки, и быстро менять все подписи — это эффективное по затратам времени решение.
Если это ваша тема, не пропустите.
демо-версия почему-то не качается 🙁
Не качается, потому что срок истёк. Осталось только видео. Если интересно, можно сделать вариант для ознакомления.
да, если не сложно
Вот:
https://www.dropbox.com/s/3sx47zqmo4edkjz/OCR-demo.zip?dl=0
спасибо, пробую