November 7th, 2013

веселка

Распознать текст под Linux? Не вижу проблем!



Итак, жизнь заставила изучить и этот вопрос. Опять же, благодаря студенческим будням сына. В общем, прислали ему сканы, которые надо было распознать. Нет, конечно же, существует в природе замечательная (и ни разу не дешевая!) программа ABBYY Finereader, которая, говорят, в ломаном виде вроде бы как под Wine работает. Но это - однозначно не наш метод! Итак, решаем быть честными и обойтись исключительно свободным, и вдобавок, нативным ПО.

Имеем: компьютер с Scientific Linux 6.x (так уж сложилось, что с некоторых пор я использую в основном именно этот дистрибутив и дома, и на работе). Естественно, нижеприведенные инструкции относятся и к другим клонам Red Hat Enterprise Linux 6.x - CentOS 6 и т.п.

Собственно программа оптического распознавания (OCR) называется CuneiForm и в виде исходных кодов доступна здесь.

В нашем случае можно не возиться со сборкой из исходников, а взять готовый пакет из репозитория  Nux-Dextop:

yum --enablerepo=nux-dextop install cuneiform

В настоящее время доступна версия 1.1.0.

Заявленные возможности программы: поддержка множества языков (в том числе украинского), сохранение форматирования исходного документа, вывод в txt, hocr, html, распознавание факсов и текстов, отпечатанных на матричном принтере.

Но в полном соответствии с канонами жанра, присутствует здесь и неизбежная ложка дегтя: данная программа является консольной, т.е. все общение с ней идет исключительно из командной строки. А отечественный юзер (как, впрочем, и "импортный") отнюдь не настолько суров, чтобы безропотно взяться за освоение данной науки. Ну, не может он жить без "гуя", и все!

Что ж, вы хочете GUI - их есть у меня! Ставим оболочку под названием YAGF. Опять же, можем заняться сборкой из исходников (инструкция по сборке прилагается в файле INSTALL в скачиваемом .tar.gz-архиве). А можем просто скачать и установить готовый пакет yagf-0.9.1-1.17.i686.rpm (для 32-битной системы), или yagf-0.9.1-1.17.x86_64.rpm (для 64-битной). Результат приведен на скриншоте в заголовке статьи.

Чтобы в распознанном тексте можно было проверить орфографию, необходимы соответствующие словари. Они имеются в виде RPM-пакетов вида aspell-XX, где XX - язык распознавания текста (aspell-en - английсий язык, aspell-ru - русский, aspell-uk - украинский и т.д.).

Пакет aspell-en имеется в репозитории EPEL (.i686 и x86_64 соответственно), aspell-ru - в репозитории CentALT (.i686 и x86_64 соответственно), а пакет aspell-uk - в репозитории Russian Fedora Free (.i686 и x86_64 соответственно).

Удачной Вам установки и хорошего распознавания!
кулемет

Жуков: "Нах..й вооружать этих хохлов? Чем больше в Днепре потопим, тем меньше в Сибирь ссылать!"

Originally posted by v_n_zb at Жуков: "Нах..й вооружать этих хохлов? Чем больше в Днепре потопим, тем меньше в Сибирь ссылать"
Оригинал взят у carabaas в Жуков: "Нах..й вооружать этих хохлов? Чем больше в Днепре потопим, тем меньше в Сибирь ссылать!"
Малоизвестным остается тот факт, что за несколько тяжелейших месяцев боев на территории освобожденных районов Украины полевые военкоматы мобилизовали сотни тысяч человек, которые, по заявлениям советского командования, собственной кровью должны были «смыть позор пребывания на оккупированной территории». Именно о судьбе этих людей, прозванных в народе «пиджачниками», «черносвитниками» или «черной пехотой», рассказал доктор исторических наук профессор Виктор Король.

z_d0985dbb

«Подростков силой забирали на фронт, не спрашивая паспорта… на глаз»

— Что же представляли собой так называемые полевые военкоматы?

— В эти структуры входили взвод солдат и два-три офицера. Фактически они возникли по инициативе генерала Николая Ватутина, которого в народе называли «генерал-облава». Подобные формирования действовали в тех краях, где воевал Ватутин, особенно много было таких «военкоматов» во время освобождения Левобережной Украины, в частности Киева и Киевской области.

На всех этапах битвы за Днепр войска Первого Украинского фронта несли огромные потери. И от Николая Ватутина поступило предложение набирать в армию молодежь из ближайших сел. Его поддержал Георгий Жуков, имевший статус заместителя Верховного главнокомандующего, что давало ему огромные полномочия. Официальным же поводом стал приказ Ставки Верховного главнокомандующего № 089 от 9 февраля 1942 года, согласно которому военным советам армий и командирам дивизий было дано право неограниченного призыва людей, «проживающих на освобождаемых от оккупации территориях», на военную службу.

За время освобождения Украины от немецких оккупантов из сел призвали в армию 900 тысяч неподготовленных и необученных бойцов

Collapse )