По использованию программы cuneiform. Распознавание текста

Итак, установка. В Убунте кстати доступна версия 0.7 из репозитариев. Версия 0.9 является последней на данный момент.
wget http://launchpad.net/cuneiform-linux/0.9/cuneiform-linux-0.9/+download/cuneiform-linux-0.9.0.tar.bz2
tar xvjf cuneiform-linux-0.9.0.tar.bz2
cd cuneiform-linux-0.9.0
mkdir builddir
cd builddir
cmake -DCMAKE_BUILD_TYPE=debug ..
make
make install
Дополнительный аргумент "-DCMAKE_INSTALL_PREFIX=/your/dir" установит cuneiform в нужную директорию.
Запускать можно со следующими аргрументами:

L
Указывает язык документа. Из возможных: eng(по умолчанию) ger fra rus swe spa ita ruseng ukr srp hrv pol dan por dut cze rum hun bul slo lav lit est tur.

O
Сохраняет в файл.

F
Формат полученного текста. Из поддерживаемых: text(по умолчанию), html, rtf, smarttext(plain text with TeX paragraphs), hocr(hOCR HTML format), native(Cuneiform 2000 format)

Dotmatrix
Оптимизация работы скрипта под изображение, распечатанное с помощью матричного принтера.

Fax
Оптимизация работы скрипта под изображение, распечатанное с помощью факса.

Singlecolumn
Отключает анализ страницы и подразумевает, что у нас изображение состоит из одной колонки текста.

Пример использования:
cuneiform -l ruseng -o /our/dir/text.txt /our/dir/book_1.tif

GUI

Далее захотелось уже графический интерфейс под бытовые нужды. Есть 2 штуки на выбор - это YAGF и :

Было решено пользовать YAGF. Он тоже написан на qt и требует еще пакет проверки орфографии aspell . Скачиваем, устанавливаем.

Сегодня я расскажу и научу вас распознавать текст с картинок. Также для тех, кому нужна была программа для распознавания текста , ниже я предлагаю скачать русскую версию программы CuneiForm 12. А сейчас я более подробно расскажу, как с ней работать.

Зачем нужно распознавать тексты?

Например, вам задали написать доклад или реферат, полазив в интернете, вы нечего путного не нашли. Потом сходили в библиотеку и взяли книгу по теме доклада, но нужного текста в книге много и перепечатывания такого объема может занять у вас всё свободное время. Вот в таких случаях приходит на помощь программа CuneiForm 12 , от вас требуется от сканировать нужные страницы книги, а потом с помощью программы извлечь из картинок текст. Хочу заметить, что всё происходит очень быстро.

Программа для распознавания текста

Как я писал выше, мы будем работать с программой CuneiForm 12. Чем же она лучше других?

  • CuneiForm бесплатная , например программа ABBYY FineReader стоит 3990 рублей.
  • Высокая скорость работы и качество распознавания.
  • Распознавание текстов на 20 языках, в том числе смешанном русско-английском.
  • Работа с рисунками и таблицами.
  • Простота использования и интуитивно понятный интерфейс.
  • А также множество технических усовершенствований.

Но недостатки также имеются, так как это программа русских разработчиков, то красивым дизайном она не выделяется, но для меня главное, то что она правильно распознает текст.

Как работать с программой CuneiForm 12

После загрузки и установки программы, запустите CuneiForm 12. Вы должны увидеть вот такое окошко:

  1. Выбор картинки, с которой будет распознаваться текст.
  2. Выбор принтера.
  3. Кнопка «Распознавания».
  4. Кнопка «Сохранить».

Нажимаем на первую кнопку и выбираете нужную картинку или от сканированную страницу. В следующем окне выбираете язык текста, который находиться у вас на картинке. Следующие настройки не так важны, можете их пролистать.

После распознавания у вас должно появиться вот такое окошко:

В верхней части будет распознанный текст с выделенными ошибками, а ниже исходное изображение. Как вы видите, моя картинка была плохого качества, неровная, но программа распознала всё отлично. Кстати как видно на рисунке выше программа предлагает три варианта развития событий.

  • Оставить для редактирования.
  • Сохранить на диск.
  • Экспортировать в Word или в Excel.

Готово, теперь вы знаете, как это делается и у вас появилась программа распознавания текста со сканера.

CuneiForm — это программа для оптического распознавания текста документов в редактируемый вид. Результаты работы программы можно редактировать в офисных программах и текстовых редакторах и сохранять в популярных форматах, проводить по ним полнотекстовый поиск. Однако для Linux имеется только консольная версия программы, поэтому гораздо удобнее пользоваться вместе с фронт-эндом YAGF.

Оболочка YAGF — Y et A nother G raphical F ront-end for CuneiForm предоставляет графический интерфейс для консольной программы распознавания текстов CuneiForm на платформе Linux. Кроме того, YAGF позволяет управлять сканированием изображений, их предварительной обработкой и собственно распознаванием из единого центра. Программа YAGF также упрощает последовательное распознавание большого числа сканированных страниц.

Программа CuneiForm имеется в стандартном репозитории Ubuntu, а вот для YAGF необходимо подключить один из дополнительных репозиториев:

Ppa:alex-p/notesalexp deb http://archive.getdeb.net/ubuntu natty-getdeb apps

и установить с помощью Центра приложений Ubuntu.

Для работы YAGF необходим пакет проверки орфографии aspell и словари соответствующих языков (aspell-en, aspell-ru и т.д.). Если вы хотите управлять сканированием изображений напрямую из YAGF, установите программу XSane. Для распознавания текста потребуется, естественно, программа CuneiForm.

Работа в YAGF состоит из нескольких этапов: получение изображения (серии изображений) страниц; подготовка к распознаванию (если необходимо); распознавание; сохранение результатов.

Получение изображений

Вы можете использовать файлы изображений, сохраненные на жестком диске, или отсканировать новое изображение. Для того чтобы загрузить изображение, воспользуйтесь командой Файл/Открыть (вы можете открыть несколько файлов сразу). Вы также можете перетащить графически файлы мышью на темную полосу в левой части главного окна программы, в результате чего они будут загружены в программу. YAGF поддерживает все основные растровые графические форматы (JPEG , PNG , BMP, TIFF , GIF , PNM, PPM, PBM и другие). Если имя открытого файла имеет вид nameXXX.ext, где XXX - последовательность цифр, вы можете переходить к предыдущему/следующему файлам с помощью кнопок перехода, расположенных на панели быстрого доступа. Например, если вы открыли файл MyPage001.jpg, то при щелчке кнопки перехода к следующему изображению программа попытается открыть файл MyPage002.jpg.

Вы можете получать изображения напрямую со сканера с помощью программы XSane. Находясь в YAGF, скомандуйте Файл/Сканировать. Будет запущена программа XSane. Настройте параметры сканирования в XSane и нажмите кнопку «Сканировать». По окончании сканирования в окне просмотра изображений YAGF появится отсканированное изображение. Если вам нужно отсканировать несколько изображений, выполняйте эти операции несколько раз (в окне просмотра изображений всегда будет открыто последнее отсканированное изображение, вы можете перейти к предыдущим изображениям, используя команды перемещения). Вы можете работать в YAGF, не закрывая окно XSane. Если вам нужно отсканировать очередное изображение, просто щелкните кнопку XSane «Сканировать». При выходе из YAGF открытое программой окно XSane будет закрыто автоматически. Для перехода к другим отсканированным изображениям пользуйтесь кнопками с панели быстрого доступа, как было описано выше. Все полученные изображения отображаются в уменьшенном виде на панели изображений в левой части главного окна программы. Вы можете сохранить эти изображения в отдельную директорию с помощью кнопки «Сохранить».

Подготовка изображений

В YAGF вы можете выполнять простые операции подготовки отсканированного изображения: выделение блока текста для распознавания и поворот. Если изображение ориентировано неправильно, его можно повернуть на 90 градусов по и против часовой стрелки или на 180 градусов. Делается это с помощью кнопок панели быстрого доступа в окне просмотра изображений. Если вы хотите передать на распознавание не все отсканированное изображение, а его часть, вы можете выделить мышью один или несколько прямоугольных блоков в окне просмотра изображений. Если щелкнуть левой кнопкой мыши по существующему блоку, его цвет изменится на розовый. Теперь размер выбранного блока можно изменить, «ухватившись» мышью за край блока. Если щелкнуть в окне изображения правой кнопкой мыши, появится контекстное меню, с помощью которого можно удалить все выделенные блоки, удалить выбранный блок, распознать текст выбранного блока. Для удобства выделения блоков вы можете уменьшить или увеличить размеры изображения в окне просмотра (эта операция не влияет на размеры изображения, передаваемого программе CuneiForm). Изменение видимых размеров изображения можно выполнить так же с помощью комбинаций клавиш Ctrl++ и Ctrl+- или вращая колесико мыши, удерживая при этом клавишу Ctrl (точно так же можно изменить размеры шрифта в окне просмотра текста).

Если в программе открыто несколько страниц и для каждой выбраны своя ориентация, свой масштаб и выделены свои блоки, YAGF запомнит эти параметры для каждой страницы.

Если страница отсканирована неровно, с наклоном, вы можете попробовать исправить наклон с помощью новой функции «Исправить наклон страницы». Для этого нажмите соответсвующую кнопку.

Распознавание

Приступая к распознаванию, вы должны выбрать подходящий язык распознавания (или пару языков, если распознаваемый документ написан на нескольких языках). Основная версия CuneiForm позволяет вам распознавать тексты почти на всех европейских языках, а также тексты, содержащие пару языков русский-английский.

Каждый новый распознанный фрагмент текста (выделенный блок или новая страница) добавляется в редактор распознанного текста в виде нового абзаца.

По умолчанию YAGF выполняет проверку орфографии распознанного текста с помощью libaspell. Обычно в вашей системе устанавливаются орфографические словари для «родной» локали система и английского. Если вы хотите проверять орфографию для текстов на других языках, установите соответствующие словари. Если YAGF не находит нужного словаря для проверки орфографии для заданного языка распознавания, программа предупреждает вас об этом. Отключите проверку орфографии, если не хотите получать такие предупреждения.

Если вам нужно распознать текст сразу с нескольких изображений, вы можете воспользоваться пакетным распознаванием. Для этого все изображения, которые требуется распознать, должны быть открыты на панели изображений (в левой части окна программы). Щелкните кнопку «Распознать все страницы». Все открытые изображения будут загружаться и распознаваться автоматически. При этом будет выведено диалоговое окно, отображающее прогресс распознавания. Вы можете остановить процесс пакетного распознавания, щелкнув кнопку «Прервать». Если на распознаваемых страницах выделены блоки, будет распознан только текст внутри блоков.

Сохранение результатов

Распознанный текст может быть сохранен на диске в текстовом формате (кодировка UTF-8), в формате HTML или скопирован в буфер обмена. Кнопка «Копировать текст в буфер обмена» копирует в буфер выделенный фрагмент распознанного текста или весь текст, если в редакторе отсутствует выделение.

Основные возможности приложения

  • распознавание текстовых документов более, чем на двадцати языках, среди которых русский, украинский, английский, испанский, немецкий, французский;
  • распознавание всех печатных шрифтов из книг, журналов, газет, с пишущих машин, распечаток из матричных и лазерных принтеров и др.;
  • встроенные оптические алгоритмы, которые могут распознавать текст с факсов или ксерокопий низкого качества;
  • возможность чтения таблиц с разными структурами и степенями сложности, даже если не отображаются линии табличной сетки;
  • сохранение структуры и форматирования документа;
  • словарная проверка для повышения качества (словарь расширяется с помощью импорта новых слов из текстов).

Все итоговые результаты, полученные в программе, можно сохранять практически во всех популярных форматах, а затем удобно и быстро находить их, используя полнотекстовый поиск.

Отличия CuneiForm от аналогов

CuneiForm отличается от других аналогичных программ высоким уровнем техники распознавания, мощнейшим текстовым редактором, наличием встроенных мастеров. Приложение распознает даже те сфотографированные или отсканированные тексты, которые отличаются особенно низким качеством.
Программа качественно преобразовывает электронные графические файлы и бумажные документы в текст для редактирования на уровне коммерческих утилит, являясь при этом абсолютно бесплатной.
Приложения с подобным функционалом: ABBYY FineReader , Tesseract, VietOCR и др.

Принципы работы

В установке программы нет никаких сложностей, нужно только запустить специальный установочный файл и действовать согласно отображаемым инструкциям.
Интерфейс достаточно простой и практически не нуждается ни в каких дополнительных настройках. Основные операции выполняются с помощью кнопок, расположенных на панели инструментов.

Интерфейс CuneiForm

Для начала нужно убедиться, поддерживает ли программа ваш сканер. Если да, то можно нажимать на кнопку «Получить изображение» или открывать готовый скан. Далее производится разметка, распознавание и сохраняется результат в необходимом формате.
В настройках («Файл» - «Общие параметры») можно изменить язык и некоторые другие параметры форматирования, сохранения и сканирования.

Мастер распознавания: Изобажение

Общие параметры

Общие параметры

CuneiForm – довольно мощная и функциональная программа, при помощи возможностей которой можно распознавать любые сфотографированные и отсканированные тексты.

OCR CuneiForm сможет отсканировать и мгновенно распознать бумажную документацию по технологии Optical Character Recognition в редактируемые текстовые и табличные форматы, совместимые с Microsoft Office Word и Excel. Потом материалы лучше сохранить и редактировать в офисных пакетах, текстовых и табличных редакторах, аналогах Microsoft Word и Microsoft Excel. Программа распространяется "как есть", разработчики не несут ответственности в связи с возможными проблемами и могут отменить действие свободной лицензии для следующих версий, поэтому стоит поторопиться и последнюю версию OCR CuneiForm скачать бесплатно для Windows 10, 8.1, 8, 7, Vista, XP, Linux или Mac OS X. Экономить время с КьюниФорм разработчики предлагают по принципу: чем лучше отсканировать и распознать, тем быстрее исправить и получить готовый результат.

Применение в CuneiForm новых технологических достижений

В начале XXI века считалось, что нормально работающей альтернативы ABBYY FineReader не существует. Несмотря на существование различных программ для OCR распознавания текста, ABBYY FineReader прочно оставался в лидерах индустрии сканирования и оцифровки документов. Это продолжалось до тех пор, пока самые продвинутые пользователи не попробовали для полноценного распознавания сфотографированного или сканированного текста скачать OCR CuneiForm 12 бесплатно без регистрации и SMS и протестировать потенциал этой по-настоящему бесплатной проги для Виндовс. При этом оказалось, что возможности OCR CuneiForm не уступают ABBYY FineReader ни в чем.

OCR CuneiForm умеет мгновенно идентифицировать все стандартные символы всевозможных начертаний и шрифтового исполнения. Распознаванию поддаются книги, журналы, листовки, газетки, принт-листы, факсовые рассылки, неудачные ксероксные копии, тексты с древних пишущих машинок и прочее, исключая декоративный шрифт и рукопись. В программном коде CuneiForm применяется ряд уникальных инновационных технологий Optical Character Recognition, таких как: адаптивное распознавание с применением шрифтонезависимых инструкций, нейронно-аналитические сети нормализации, когнитивная аналитика альтернативных вариантов трактовки текста, спецалгоритмы для матричного принтера, некачественных результатов ксерокопирования, факсов и машинописных страниц и прочие. При необходимости использовать все это для дела всегда можно бесплатно скачать CuneiForm для Windows 10, 8.. CuneiForm способен воссоздать абсолютную копию исходника. Сохраняется форматирование и структурирование, отступы, колонтитулы, сноски, индексы, количество и размеры колонок, абзацы, расположение отдельных фрагментов текста, табличных элементов и иллюстраций, стили шрифтов и другие элементы шрифтового оформления.

Интерфейс, языки, словари и функционал ОСР КьюниФорм

OCR CuneiForm отлично узнает и оцифровывает документацию, удобна в работе и не создает проблем начинающим пользователям, поскольку обладает удобным русскоязычным интерфейсом, имеет встроенные советы и всплывающие подсказки. Для закачки и подключения доступны популярные графические интерфейсы для КьюниФорм: YAGF, OCR Feeder, CF-Qt, Puma и прочие. Стандартный графический интерфейс имеет все инструменты, необходимые для полноценного распознания сканированного или сфотографированного текста. Мультиязычный интерфейс на родном языке способствует ускорению понимания оператором принципов работы и расширению спектра используемых возможностей. В настройках доступно конфигурирование под распознавание символов на русском, инглише, русско-английском и еще 20-ти европейских языковых раскладках. Качество мгновенного распознавания повышается при использовании словарей, которые можно расширять, импортируя слова из словарных файлов.

Основные функциональные преимущества программы OCR CuneiForm:

  • достойное OCR распознавание и скорость работы,
  • автоподбор оптимальных настроек сканирования,
  • импорт отсканированных, сфотографированных или принятых иным путем картинок,
  • поворот, переворот, инверсия, очистка и прочее редактирование изображений,
  • несколько вариантов идентификации абзацев текста, таблиц и картинок,
  • в работу идет любой материал, исключая декор и рукопись,
  • словарная поддержка для улучшения качества,
  • сравнительная демонстрация исходников и символьных результатов,
  • OCR-совместимость со свыше двадцати языками, включая русский.

Бесплатность, множество преимуществ, скорость и отсутствие проблем в работе являются весомыми аргументами, чтобы скачать CuneiForm бесплатно на сайте сайт русскую версию. Использование высокотехнологичного гарантирует высококачественные скан и распознавание документации с бумажных носителей или растровых файлов в форматы, подходящие для редактирования в соответствующих редакторах.

Немного исторических фактов

Cognitive Technologies образовалась в 1993 г. на основе главного центра ИИ ИСА Российской Академии Наук. Как итог научно-практических исследований появилась первая CuneiForm. В конце 1993 года был подписан OEM-контракт с Corel Corporation, по которому код КьюниФорм вошел в пакет Corel Draw. В дальнейшем после многих лет перерыва компания освободила проект, перестав продавать и поддерживать программу, но программа КьюниФорм настолько хороша, что сегодня отсканировать и распознать русский текст лучше и дешевле всего получится, если бесплатно скачать OCR CuneiForm русскую версию на свой компьютер.

Вскоре этот программный продукт оказался одним из наиболее востребованных средств оптического распознавания текстов и заслужил позитивные отзывы и комментарии пользователей на официальном сайте cognitiveforms в домене com, тематических сайтах и форумах, а также в социальных сетях. Сегодня CuneiForm выделяется из массы прочего Optical Character Recognition программного обеспечения достойным распознаванием некачественной документации. Среди достоинств КуниФорма отмечены качественный перевод в цифровой вид бумажной документации и растровых файлов с экспортом в мультиформатный текст и таблицы Microsoft Office Word и Excel или их аналоги.

Ошибка во взаимодействии со сканерами

Сканирование на HP, Epson, Mustek, Canon и некоторых других черевато ошибкой. Причина данной проблемы обусловлена нюансами взаимодействия TWAIN-интерфейса с оборудованием. Лечится проблема простым редактированием строки с содержимым TWAIN_TransferMode в файле C:\Windows\face.ini до состояния: TWAIN_TransferMode=memory-native и перезапуском программы. Как правило, сегодня таких проблем не наблюдается, и чтобы получить из бумажного документа редактируемую электронную версию, нужно просто бесплатно скачать CuneiForm на русском языке с этой страницы сайта сайт без регистрации и СМС и использовать ее по прямому назначению. Это сбережет время и освободит от ручного набирания текста в Microsoft Word и таблиц в Microsoft Excel или аналогах этого ПО.

Последнюю версию CuneiForm 12 скачать бесплатно на русском языке

Бесплатные программы скачать бесплатно

Сейчас Вы находитесь на странице с названием "OCR КьюниФорм для полноценного распознавания сфотографированного или сканированного текста" сайта , где каждый имеет возможность легально скачать программы для компьютера с Microsoft Windows. Эта страница создана/существенно обновлена 06.06.2019. Спасибо, что посетили раздел .

Статьи по теме: