The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Релиз системы распознавания текста Tesseract 4.1

12.07.2019 10:18

Подготовлен релиз системы оптического распознавания текста Tesseract 4.1, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX или SSE4.1.

Основные улучшения в Tesseract 4.1:

  • Добавлена возможность вывода в XML-формате ALTO (Analyzed Layout and Text Object). Для использования данного формата следует запустить приложение как "tessaract имя_изображения каталог_вывода alto";
  • Добавлены новые модули рендеринга LSTMBox и WordStrBox, упрощающие проведение обучения движка;
  • Добавлена поддержка псевдографики в выводе hOCR (HTML);
  • Добавлены написанные на языке Python альтернативные скрипты для тренировки движка на базе машинного обучения;
  • Расширены оптимизации с использованием инструкций AVX, AVX2 и SSE;
  • По умолчанию отключена поддержка OpenMP из-за проблем с производительностью;
  • В движке LSTM добавлена поддержка белых и чёрных списков;
  • Улучшены сборочные сценарии на базе Cmake.


  1. Главная ссылка к новости (https://groups.google.com/foru...)
  2. OpenNews: Релиз системы распознавания текста Tesseract 4.0
  3. OpenNews: Новая версия оболочки для распознавания текста YAGF 0.9.4
  4. OpenNews: Первый стабильный релиз системы распознавания текстов Cuneiform 1.0
  5. OpenNews: Релиз системы распознавания текстов Cuneiform 1.1.0
  6. OpenNews: Выпуск системы распознавания текста GNU Ocrad 0.27
Лицензия: CC-BY
Тип: Программы
Ключевые слова: tesseract, ocr
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение (73) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, iPony129412 (?), 10:21, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]  
  • –5 +/
    YAGF как там с Qt 5?
     
     
  • 2.2, Анон__ (?), 10:42, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +6 +/
    По ссылке влом сходить? Или ща так не модно?
     
     
  • 3.3, iPony129412 (?), 12:16, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Я переходил прежде чем писать.
     
     
  • 4.5, Sluggard (ok), 12:18, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +1 +/
    И не нашёл отдельный бранч с Qt5-версией? Странно.
     
     
  • 5.8, iPony129412 (?), 12:36, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • –3 +/
    И не нашёл, и не собрал, и не затестил. Ужас...
     
     
  • 6.10, fske (?), 13:04, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Ну яблочник, очевидно же...
     
     
  • 7.14, iPony129412 (?), 14:33, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    А если кто-то не «яблочник», то он просто так сразу побежит тратить один конечас на сборку проекта, который ему нужен этак со степенью ‘маловероятно’?
    ЗЫ: дет сад уровня местной аудитории
     
     
  • 8.16, Аноним (16), 14:36, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • –4 +/
    Ты походу адресом сайта ошибся тебе бы в комменты к вилсе на ютубе ... текст свёрнут, показать
     
     
  • 9.19, iPony129412 (?), 14:45, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • –3 +/
    - как там Qt5 Вроде что-то было по портированию с Qt4 на Qt5 - да, что-то... текст свёрнут, показать
     
  • 9.33, Жабры Егорина (?), 18:42, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • –3 +/
    Оу, сюда и скрытые фанаты вилсы оупенсорсники захаживают А линуксоиды-пикабушни... текст свёрнут, показать
     
  • 8.20, Аноним (20), 14:46, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Тогда не задавай глупых вопросов и не трать наши человекоминуты ... текст свёрнут, показать
     
  • 8.25, Sluggard (ok), 16:12, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Зависит от того, насколько ему оно интересно и нужно Если интересно средне 82... текст свёрнут, показать
     
     
  • 9.68, iPony129412 (?), 06:26, 15/07/2019 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Нет, тут полно тулкитофобов, которым особо делать нечего Поэтому вероятность вс... текст свёрнут, показать
     
  • 5.11, Аноним (11), 13:12, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    В Mageia возьмите.
     

  • 1.4, Аноним (4), 12:17, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]  
  • –2 +/
    К сожалнию, качество распознавания - просто кошмар. ИМХО, для свободного софта сфера OCR - весьма слабое место.
     
     
  • 2.6, corvuscor (ok), 12:30, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Да нормально он распознает. Более-менее приличный скан пролетает без проблем.
    Жаль только, что оно не умеет в форматирование, таблицы. Но можно юзать какой-нибудь ocrmypdf.
     
     
  • 3.9, evkogan (?), 12:41, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Какой нормально, FineReader 3.0 20 давности распознавал лучше. С форматированием, с таблицами.
    Им реально можно книги распознавать.
    А это только утилита выдрать текст с картинки авось получится, для добавления индексов в поиск пойдет.
     
     
  • 4.71, none_first (ok), 13:42, 15/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    > Какой нормально, FineReader 3.0 20 давности распознавал лучше. С форматированием, с таблицами.
    > Им реально можно книги распознавать.
    > А это только утилита выдрать текст с картинки авось получится, для добавления
    > индексов в поиск пойдет.

    на нек. сканах - файнридер (любой) тупо крашится или выжирает всю память от виндадко ;)
    и да, ФР порой текст распознает отвратительно (если скан неважный)
    надо понимать (отличать) просто распознавание текста и все задачу по распознаванию сканов (она гораздо масштабнее)

     
  • 2.7, iPony129412 (?), 12:35, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Зависит от входных данных. Для сабжа действительно надо что-то простое.
     
     
  • 3.63, Дегенератор (ok), 16:31, 14/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Это ты про буфер обмена?
     
  • 2.12, psv (??), 13:57, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    И LSTM модуль тоже пробовали?
     
  • 2.17, Аноним (16), 14:37, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    В свое время распознавал им капчу было норм. Правда я сначала подготавливал картинку.
     
  • 2.51, Аноним (51), 11:55, 13/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    > К сожалнию, качество распознавания - просто кошмар.

    Ваще идеально работает по PDF рендерингам в имиджи.

    По хорошим сканам тоже - хватАет.

     
  • 2.70, none_first (ok), 13:31, 15/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    > К сожалнию, качество распознавания - просто кошмар. ИМХО, для свободного софта сфера
    > OCR - весьма слабое место.

    Применял с предобработкой Scan Tailor - результат был лучше продуктов ABBYY
    "Недостаток" - отсутствие распознавание таблиц (хотя были зачатки) и макета страницы, но это не является задачей движка распознавания самого текста ;)
    Графические надстройки (типа YAGF) как-то пытаются выполнять подобные ф-ции...

     

  • 1.13, Аноним (13), 14:11, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    > поддерживающей распознавание символов UTF-8

    Смайлики что-ли?

     
     
  • 2.28, mandala (ok), 17:30, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Emoji, еретик! Еще "колобки" бы сказал...
     
  • 2.43, konst555 (?), 00:14, 13/07/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    мне тоже резануло слух.
    Я даже шутку придумал: пока не научится распозновать символы koi8-r - ну ее на фиг.
    С другой стороны - все правильно сказано.
     
     
  • 3.44, konst555 (?), 00:15, 13/07/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    хотя лучше бы написали: символов, поддерживаемых UTF8
     
  • 2.73, Фноним (?), 00:19, 17/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Конкретных пяти символов же:
    U,T,F,дефис и восемь
     

  • 1.15, Сигизмунд (?), 14:34, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]  
  • –5 +/
    Я почему то думал что Tesseract это шутер:
    http://tesseract.gg/
     
     
  • 2.37, Аноним (37), 19:58, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Сейчас придет школота и объяснит тебе, что тессеракт - это один из камней бесконечности, содержащий одну из шести сингулярностей, предшествовавших вселенной.
     
     
  • 3.74, www2 (??), 22:17, 19/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Тессеракт - это гиперкуб из четырёхмерного пространства, аналог двумерного квадрата и трёхмерного куба. Его "гранями" являются трёхмерные кубы.
     
  • 2.59, Led (ok), 19:28, 13/07/2019 [^] [^^] [^^^] [ответить]  
  • +8 +/
    > Я ...думал

    Шлёма, не звезди.

     

  • 1.18, qaqa (?), 14:44, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Никто не скажет, опенсорснутый Cuneiform так ни во что юзабельное и не превратился?
     
     
  • 2.21, Аноним (20), 14:54, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Код волшебным образом превращается во что-то только спустя 10 лет лежания без коммитов, а пока прошло только 8.
     
     
  • 3.66, Аноним (66), 20:34, 14/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Что ещё предскажет нумерология?
     
  • 2.27, Ретроград (?), 17:27, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Это тот, который даже не запускается в Release, только в Debug? Нет, не вылился. И не нужно.
     
  • 2.34, Michael Shigorin (ok), 19:12, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Он непортабельный, плюс ко всему... куски асма без generic.
     
  • 2.60, Gannet (ok), 00:45, 14/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Он подох по ходу. Был УГ и подох УГом.
     

  • 1.22, Аноним (37), 15:00, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Я правильно понимаю, что они и не пытались выяснить, куда девается производительность при сборке mingw64 с OpenMP и просто решили его отключить?
     
     
  • 2.41, Аноним (41), 22:04, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    OpenMP там, похоже, прикручен для галочки. К примеру, используемое число потоков захардкожено и его нельзя повысить, только понизить через переменную окружения: https://github.com/tesseract-ocr/tesseract/issues/1600

    Судя по беглому поиску по исходникам, OpenMP в tesseract используется для оптимизаци низкоуровневых операций (работа с матрицами, сегментация текста). Как следствие, каждому отдельному потоку достаётся сравнительно мало работы, и вместо прирост производительности на коротких текстах легко получить просадку.

     

  • 1.23, Адекват (ok), 16:04, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]  
  • –9 +/
    К сожалению, если софт опенсорсный и бесплатный - он будет таким всегда, это как... текст свёрнут, показать
     
     
  • 2.26, Аноним (26), 16:27, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Мы тебя услышали! Давай, подскажи *платный* (за деньги!) модуль (чтобы интегрировать в серерную систему) распознавания *под линукс*.

    Подсказка: у Abbyy такого нет, не работают они с линуксом, даже за деньги.

    ЗЫ. информация давности примерно год, вдруг что-то и поменялось?

     
     
  • 3.29, Ретроград (?), 17:30, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Норкоман чтоле? Всю жизнь у них был Finereader Engine под линуксы:

    https://www.abbyy.com/en-eu/support/frengine/11linux/info/sr/

     
     
  • 4.35, Michael Shigorin (ok), 19:13, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • –3 +/
    Ну далеко не всю жизнь, но достаточно давно, чтоб удивиться тому, почему сами-то встали на полдороги.
     
  • 2.31, mandms (?), 17:49, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +2 +/
    И нет и да.
    Нет, потому, что проект, приобретя пользователей (кинетическую энергию, в ваших терминах) - то есть раскрутив свой маховик (разов/часов использования, количества пользоватетелей) - привлекает как клиентов бизнес, а как производителя и оказывающего сервис сопровождения корпорацию, одну или больше и продолжает жить на этом. такова тут "передача энергии" в виде денег или "отчужденного труда"

    Да, потому, что если проект не раскрутится до многих юзеров и не приобретет многих девелоперов, то поддержки не получит. С сообтветствующим циклом обратной связи которая останавливает или тормозит.
    То есть на такой проект кроме естественной силы развития и разгона, порожденного самой идеей и нужности данного софта, действует другая естественная сила торможения.

     

  • 1.24, kknight (ok), 16:06, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Я пробовал Тессерактом распознавать старые листы, сделанные на печатной машинке. Качество там сильно так себе. По дефолту Тессеракт вообще не справлялся. Я потратил время на создание модели обучения, вручную обводил в Box editor каждую буковку, всё сконвертировал как надо. На результат это сильно не повлияло - как был мусор, так и остался. Не готов пока Тессеракт.
     
     
  • 2.30, Ретроград (?), 17:32, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    С hires сканов он распознает очень даже нормально, пользовал его для оцифровки книжек. Только там надо минимум 600 dpi, а лучше 1200 и выше.
     
     
  • 3.32, Tita_M (ok), 18:28, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Части распознанного текста уже не вырезает?
    Когда-то давно пробовал им распознавать .djvu файлы. Так он "глотал" случайные части текста и выходной файл получался без части текста. Также попадались файлы с флибусты с подобной проблемой - видимо я не один такой.
     
     
  • 4.38, forum reader (?), 20:49, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    >Части распознанного текста уже не вырезает?

    Вырезает мат и неполиткоректтность

    >>В движке LSTM добавлена поддержка белых и чёрных списков;

     
     
  • 5.47, Аноним (47), 11:28, 13/07/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Фу. Не чёрных, а альтернативно белых.
     
  • 2.72, none_first (ok), 17:16, 15/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    > Я пробовал Тессерактом распознавать старые листы, сделанные на печатной машинке. Качество
    > там сильно так себе. По дефолту Тессеракт вообще не справлялся. Я
    > потратил время на создание модели обучения, вручную обводил в Box editor
    > каждую буковку, всё сконвертировал как надо. На результат это сильно не
    > повлияло - как был мусор, так и остался. Не готов пока
    > Тессеракт.

    поставьте scantailor, у него есть пакетный режим обработки (по настройкам) из CLI (если надо несколько страниц), получите на выходе картинки в 600dpi, далее tesseract. Я получал результат лучше файнридера (в смысле рапознавания текста)
    Скантейлор имеет ф-ции выравнивания строк (эксперементальные) - у меня работало без нареканий. Как пример: фотка (с сильными шумами, с искаженной перспективой) с банковскими реквизитами, сделанная телефоном, через пленку, была распознана достойно

     

  • 1.39, Аноним (39), 21:59, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Увы, по прежнему альтернативы Finereader не видно. Тут дело скорей даже не в самом движке сколько в предобученных моделях. В ABBY использовали нейросети достаточно давно плюс сотрудничество с кучей корпоративных клиентов (в т.ч. библиотек), как итог у них значительно лучше предобученные модели. По прежнему гоняю виртуалку когда надо что-то из сканов перегнать в цифру.  
     
     
  • 2.40, Аноним (39), 22:03, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Плюс GUI для Tesseract-а по сравнению с продуктом ABBY мусор. И это еще одна беда. Более чем уверен что Tesseract где-то продается вместе нормальными моделями распознавания и GUI.  
     
     
  • 3.54, Аноним (54), 16:26, 13/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Это посмотрите https://help.ubuntu.ru/wiki/yagf
     
  • 3.55, Аноним (54), 16:28, 13/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    YAGF is a graphical front-end for cuneiform and tesseract OCR tools
    https://sourceforge.net/projects/yagf-ocr/
     
  • 2.42, alexrayne (?), 23:14, 12/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    recognita+ приятная штучка. только падает на вин7. надо из виртуалки видимо пускать
     
  • 2.45, Аноним (54), 10:35, 13/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Поддержка только Windows не позволяет серьезно рассматривать данный продукт несмотря на повсеместное распространение. Ведь мы же серьезные люди. А так вполне удачен gimageReader. Правда, форматирование не сохраняет.
    p.s. Есть сомнение относительно необходимости OCR как класса ПО. По крайней мере некоторые уже имеют проблемы от его использования. Я имею в виду диссертантов и обвинение в плагиате. Поэтому советую, при острой необходимости заимствования, либо точное цитирование (объем которого ничтожен) либо прочитать источник, закрыть его и изложить своими словами.
     
     
  • 3.46, Аноним (54), 10:37, 13/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Добавление. Не существует программ для распознавания формул. В нашей области это проблема, требующая времени для решения. А распознавание текста - разве что для гуманитариев.
     
  • 3.48, Аноним (47), 11:28, 13/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Finereader есть под линукс.
     
     
  • 4.49, iPony129412 (?), 11:48, 13/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Только серверный
     
     
  • 5.52, Аноним (54), 15:07, 13/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Это? "ABBYY FineReader Engine is the Software Development Kit (SDK) to integrate multilingual text recognition and conversion technologies into external applications".

    Пользовательских (числе серверных) продуктов нет для систем, отличных от Windows.

     
     
  • 6.61, iPony129412 (?), 07:37, 14/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Ну типа того. Есть разве что ещё вебный сервис от них для обычных пользователей.
     
  • 4.53, Аноним (54), 15:07, 13/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Ссылку можно?
     
  • 2.64, Дегенератор (ok), 16:34, 14/07/2019 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Кто-то должен страдать )))
     

  • 1.50, Аноним (50), 11:55, 13/07/2019 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Текст из капчи осилит?
     
     
  • 2.56, Аноним (56), 17:06, 13/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    сам уже не справляешься?
     
     
  • 3.57, Аноним (50), 17:09, 13/07/2019 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Я не робот!
     
     
  • 4.58, Аноним (56), 17:36, 13/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    угу, продолжайте разгадывать, осталось еще четыре стадии
     
  • 4.62, iPony129412 (?), 07:38, 14/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Ты отстал от жизни.
    Теперь человеком, является только тот, кто распознаёт автобусы 🚌, переходы, гидранты...
    У меня плохо получается, но я учусь.
     
     
  • 5.65, Аноним (65), 19:09, 14/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    По0моему нужно быть роботом что бы угадать некоторые витрины с автобусами
     

  • 1.67, Аноним (66), 20:36, 14/07/2019 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А что мешает запилить на основе нейросетей нормальный распознавальщик? Пусть он будет в 10 раз тормознее на CPU, тут главное - качество.
     
     
  • 2.69, Ordu (ok), 10:54, 15/07/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Из новости:

    > Предлагается два движка распознавания: [...] и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности.

     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Спонсоры:
    Слёрм
    Inferno Solutions
    Hosting by Ihor
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2019 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру