Избранное »

Наш канал на Youtube

22.09.2014 – 07:27 | 2 комментария | 27 625 views

Здравствуйте все, кто работает в Индизайне!
Извещаем вас о том, что на youtube.com работает канал «InDesign Мастерская вёрстки». Там уже размещены более 70 видео с полным описанием как работать с программой DoTextOK. Другие интересные темы, касающиеся работы …

Читать полностью »

Работа в InDesign

Хитрости и секреты, приемы работы, уроки

Новая версия!

Особенности новой версии Индизайна

Плагины

Описание плагинов, информация о плагинах для работы с Adobe InDesign

Скрипты

Готовые к использованию скрипты для Adobe InDesign

Скриптинг

Описание языка, приёмов и методов программирования для Adobe InDesign

Home » Работа в InDesign, Скрипты

Взять из вёрстки, распознать и поместить обратно

Добавлено iv-mi на 12.05.2018 – 02:125 комментариев | 1 128 views

(Как организовать транспортировку текста-картинки в программу распознавания, и как возвращать текст в то пространство, где была взята эта текстовая картинка)

Меня поймут те, кто хоть раз тратил время на тягомотную работу, когда надо было на место растрированного текста помещать фреймы с уже распознанным текстом. Масса мелкой работы по выделению кусочков, приведению в порядок распознанного текста, поиск нужных фрагментов, бесконечное рисование фреймов, помещение в них текста, назначение стилей, поиск оптимального положения каждого фрейма…
Тосссскаааа…. Хорошо бы, чтобы такой верстальной муторной скучищи больше не было.

Я думал, что я уже в жизни всю свою такую работу давно сделал, но тут она неожиданно свалилась. И как всегда, срочно. Больше ста страниц сканов редкой книги стихов на французском языке. Слева скан – справа перевод, и то, что слева, надо сделать текстом. Ну и конечно вся эта морока, когда стихи оригинал и перевод один напротив другого — строфы должны стоять на одной базовой линии. В данном случае строки везде длинные, часто не умещающиеся в формат. Так что надо держать под контролем и левую и правую стороны.

Но прежде чем заняться оформлением, надо все эти сканы превратить в текст. Есть масса вариантов, как сделать это. Для меня определяющим было — быстро завершить эту работу. Распознающих программ много, у всех примерно одинаковое качество результата, поэтому тут важно не какой программой распознавать, а как организовать транспортировку текста-картинки в программу распознавания, и как возвращать текст в то пространство, где была взята эта текстовая картинка.

И я не знаю способа лучше, чем сделать скрипт и поручить ему всю эту тягомотину.
Работа его проста и понятна:
— рисуешь прямоугольник вокруг стиха;
— нажимаешь кнопку, и область, накрытая этим прямоугольником, оказывается в программе Acrobat;
— распознаешь этот текст в акробате и берешь его в буфер;
— нажимаешь кнопку, прямоугольник превращается в текстовый фрейм, в него помещается из буфера текст. К фрейму прикладывается выбранный объектный стиль — непрозрачная заливка скрывает картинку, тексту назначается абзацный стиль.

Потом новый прямоугольник – кнопка – акробат — буфер – кнопка – фрейм с текстом.

Я убеждён, что вёрстка должна быть в кайф, и тут получилась игрушка, с которой я развлёкся с этой больше чем сотней страниц, и это было в удовольствие. Одна мысль, сколько надо было бы делать руками на каждой странице, чтобы получать тот же результат, поднимала настроение на высочайший уровень.
Вот видео:
https://youtu.be/_iX597lEtSQ
Вот архив с программой:
https://www.dropbox.com/s/sh92hpa2k832piv/OCR-demo.zip?dl=0
Деморежим на 10 дней.
Варианта «работает по выходным» больше не будет.

И это не обязательно только стихи. Рисунки с подписями, чертежи, графики, да масса случаев, когда качество скана устроило бы, если бы не драный текст. Но программы распознавания хорошо справляются и с драным текстом, так что оставлять картинки, и быстро менять все подписи — это эффективное по затратам времени решение.
Если это ваша тема, не пропустите.