URL: https://www.opennet.ru/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 117902
[ Назад ]

Исходное сообщение
"Релиз системы распознавания текста Tesseract 4.1"

Отправлено opennews , 12-Июл-19 10:21 
Подготовлен (https://groups.google.com/forum/#!topic/tesseract-ocr/oKtTOI... релиз системы оптического распознавания текста Tesseract 4.1 (https://github.com/tesseract-ocr/tesseract/), поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский  и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR),  ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты  проекта распространяются (https://github.com/tesseract-ocr/tesseract) под лицензией Apache 2.0.


Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов (https://github.com/tesseract-ocr/tesseract/wiki/User-Project... можно отметить gImageReader (https://github.com/manisandro/gImageReader), VietOCR (http://vietocr.sourceforge.net/) и YAGF (https://sourceforge.net/projects/yagf-ocr/). Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков (https://github.com/tesseract-ocr/tesseract/wiki/Data-Files). Для  оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX или SSE4.1.

Основные улучшения (https://github.com/tesseract-ocr/tesseract/wiki/ReleaseNotes) в Tesseract 4.1:


-  Добавлена возможность вывода в XML-формате ALTO (https://en.wikipedia.org/wiki/ALTO_(XML)) (Analyzed Layout and Text Object). Для использования данного формата следует запустить приложение как "tessaract имя_изображения каталог_вывода alto";
-  Добавлены новые модули рендеринга LSTMBox и WordStrBox, упрощающие проведение обучения движка;
-  Добавлена поддержка псевдографики в выводе hOCR;
-  Добавлены написанные на языке Python альтернативные скрипты для тренировки движка на базе машинного обучения;

-  Расширены оптимизации с использованием инструкций AVX, AVX2 и SSE;
-  По умолчанию отключена поддержка OpenMP из-за проблем (https://github.com/tesseract-ocr/tesseract/issues/1171) с производительностью;
-  В движке LSTM добавлена поддержка белых и чёрных списков;
-  Улучшены сборочные сценарии на базе Cmake.


URL: https://groups.google.com/forum/#!topic/tesseract-ocr/oKtTOI...
Новость: https://www.opennet.ru/opennews/art.shtml?num=51081


Содержание

Сообщения в этом обсуждении
"Релиз системы распознавания текста Tesseract 4.1"
Отправлено iPony129412 , 12-Июл-19 10:21 
YAGF как там с Qt 5?

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Анон__ , 12-Июл-19 10:42 
По ссылке влом сходить? Или ща так не модно?

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено iPony129412 , 12-Июл-19 12:16 
Я переходил прежде чем писать.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Sluggard , 12-Июл-19 12:18 
И не нашёл отдельный бранч с Qt5-версией? Странно.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено iPony129412 , 12-Июл-19 12:36 
И не нашёл, и не собрал, и не затестил. Ужас...

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено fske , 12-Июл-19 13:04 
Ну яблочник, очевидно же...

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено iPony129412 , 12-Июл-19 14:33 
А если кто-то не «яблочник», то он просто так сразу побежит тратить один конечас на сборку проекта, который ему нужен этак со степенью ‘маловероятно’?
ЗЫ: дет сад уровня местной аудитории

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 12-Июл-19 14:36 
Ты походу адресом сайта ошибся тебе бы в комменты к вилсе на ютубе.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено iPony129412 , 12-Июл-19 14:45 
- как там Qt5? /* Вроде что-то было по портированию с Qt4 на Qt5 */
- да, что-то есть по портированию.

Спасибо 👍


"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Жабры Егорина , 12-Июл-19 18:42 
Оу, сюда и скрытые фанаты вилсы оупенсорсники захаживают. А линуксоиды-пикабушники есть?

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 12-Июл-19 14:46 
> проекта, который ему нужен этак со степенью ‘маловероятно’

Тогда не задавай глупых вопросов и не трать наши человекоминуты.


"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Sluggard , 12-Июл-19 16:12 
Зависит от того, насколько ему оно интересно и нужно.
Если интересно средне — есть бранч с Qt5, можно посмотреть историю коммитов и открытых тикетов, если интересно сильно — попробовать собрать и попользоваться.
Детсад — ждать, что кто-то сделает вышеперечисленное за и ради тебя.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено iPony129412 , 15-Июл-19 06:26 
> Детсад — ждать, что кто-то сделает вышеперечисленное за и ради тебя.

Нет, тут полно тулкитофобов, которым особо делать нечего.
Поэтому вероятность встретить кого-то "да, я вот пользуюсь" вполне нормальная.
PS: хотя вероятность встретить неадекватов, которым просто пофлудить ради поднятия ЧСВ, явно больше


"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 12-Июл-19 13:12 
В Mageia возьмите.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 12-Июл-19 12:17 
К сожалнию, качество распознавания - просто кошмар. ИМХО, для свободного софта сфера OCR - весьма слабое место.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено corvuscor , 12-Июл-19 12:30 
Да нормально он распознает. Более-менее приличный скан пролетает без проблем.
Жаль только, что оно не умеет в форматирование, таблицы. Но можно юзать какой-нибудь ocrmypdf.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено evkogan , 12-Июл-19 12:41 
Какой нормально, FineReader 3.0 20 давности распознавал лучше. С форматированием, с таблицами.
Им реально можно книги распознавать.
А это только утилита выдрать текст с картинки авось получится, для добавления индексов в поиск пойдет.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено none_first , 15-Июл-19 13:42 
> Какой нормально, FineReader 3.0 20 давности распознавал лучше. С форматированием, с таблицами.
> Им реально можно книги распознавать.
> А это только утилита выдрать текст с картинки авось получится, для добавления
> индексов в поиск пойдет.

на нек. сканах - файнридер (любой) тупо крашится или выжирает всю память от виндадко ;)
и да, ФР порой текст распознает отвратительно (если скан неважный)
надо понимать (отличать) просто распознавание текста и все задачу по распознаванию сканов (она гораздо масштабнее)


"Релиз системы распознавания текста Tesseract 4.1"
Отправлено iPony129412 , 12-Июл-19 12:35 
Зависит от входных данных. Для сабжа действительно надо что-то простое.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Дегенератор , 14-Июл-19 16:31 
Это ты про буфер обмена?

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено psv , 12-Июл-19 13:57 
И LSTM модуль тоже пробовали?

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 12-Июл-19 14:37 
В свое время распознавал им капчу было норм. Правда я сначала подготавливал картинку.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 13-Июл-19 11:55 
> К сожалнию, качество распознавания - просто кошмар.

Ваще идеально работает по PDF рендерингам в имиджи.

По хорошим сканам тоже - хватАет.


"Релиз системы распознавания текста Tesseract 4.1"
Отправлено none_first , 15-Июл-19 13:31 
> К сожалнию, качество распознавания - просто кошмар. ИМХО, для свободного софта сфера
> OCR - весьма слабое место.

Применял с предобработкой Scan Tailor - результат был лучше продуктов ABBYY
"Недостаток" - отсутствие распознавание таблиц (хотя были зачатки) и макета страницы, но это не является задачей движка распознавания самого текста ;)
Графические надстройки (типа YAGF) как-то пытаются выполнять подобные ф-ции...


"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 12-Июл-19 14:11 
> поддерживающей распознавание символов UTF-8

Смайлики что-ли?


"Релиз системы распознавания текста Tesseract 4.1"
Отправлено mandala , 12-Июл-19 17:30 
Emoji, еретик! Еще "колобки" бы сказал...

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено konst555 , 13-Июл-19 00:14 
мне тоже резануло слух.
Я даже шутку придумал: пока не научится распозновать символы koi8-r - ну ее на фиг.
С другой стороны - все правильно сказано.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено konst555 , 13-Июл-19 00:15 
хотя лучше бы написали: символов, поддерживаемых UTF8

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Фноним , 17-Июл-19 00:19 
Конкретных пяти символов же:
U,T,F,дефис и восемь

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Сигизмунд , 12-Июл-19 14:34 
Я почему то думал что Tesseract это шутер:
http://tesseract.gg/

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 12-Июл-19 19:58 
Сейчас придет школота и объяснит тебе, что тессеракт - это один из камней бесконечности, содержащий одну из шести сингулярностей, предшествовавших вселенной.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено www2 , 19-Июл-19 22:17 
Тессеракт - это гиперкуб из четырёхмерного пространства, аналог двумерного квадрата и трёхмерного куба. Его "гранями" являются трёхмерные кубы.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Led , 13-Июл-19 19:28 
> Я ...думал

Шлёма, не звезди.


"Релиз системы распознавания текста Tesseract 4.1"
Отправлено qaqa , 12-Июл-19 14:44 
Никто не скажет, опенсорснутый Cuneiform так ни во что юзабельное и не превратился?

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 12-Июл-19 14:54 
Код волшебным образом превращается во что-то только спустя 10 лет лежания без коммитов, а пока прошло только 8.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 14-Июл-19 20:34 
Что ещё предскажет нумерология?

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Ретроград , 12-Июл-19 17:27 
Это тот, который даже не запускается в Release, только в Debug? Нет, не вылился. И не нужно.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Michael Shigorin , 12-Июл-19 19:12 
Он непортабельный, плюс ко всему... куски асма без generic.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Gannet , 14-Июл-19 00:45 
Он подох по ходу. Был УГ и подох УГом.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 12-Июл-19 15:00 
Я правильно понимаю, что они и не пытались выяснить, куда девается производительность при сборке mingw64 с OpenMP и просто решили его отключить?

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 12-Июл-19 22:04 
OpenMP там, похоже, прикручен для галочки. К примеру, используемое число потоков захардкожено и его нельзя повысить, только понизить через переменную окружения: https://github.com/tesseract-ocr/tesseract/issues/1600

Судя по беглому поиску по исходникам, OpenMP в tesseract используется для оптимизаци низкоуровневых операций (работа с матрицами, сегментация текста). Как следствие, каждому отдельному потоку достаётся сравнительно мало работы, и вместо прирост производительности на коротких текстах легко получить просадку.


"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Адекват , 12-Июл-19 16:04 
К сожалению, если софт опенсорсный и бесплатный - он будет таким всегда, это как...соперничество двух сил, у платного софта - есть функционал, который был достигнут благодаря трудозатратам разработчиков, и деньги тут являются способом передачи энергии - разработчики затратили свои силы, работали в поте лица, ожидая получить вознаграждение (и получили), пользователи ожидали получить качественный продукт - и получили, но не бесплатно, но если вдуматься - их затраты в виде денег, это альтернатива затратам в виде ручной работы, в данном случае ручного набирания текста на клавиатуре, а в случае если у пользователя сотня листов, то работа может быть существенной, и разовая плата за лицензию может быть существенно ниже, чем оплата одного или нескольких сотрудников, которые будут выполнять работу по перепечатыванию текста с бумаги в компьютер. Вот и получается выгода всем - пользователи платят деньги (и в долгосрочной перспективе экономят), получая софт, который работает за них, а разработчики получают эти деньги за свои труды. Все в профите.
А что ждет бесплатный опенсорсный софт в этом цикле ? Разработчики не получают деньги и не готовы работать полный рабочий день, пользователи не получают тот функционал, что есть в проприетарном софте, и соответственно не считают нужным его оплачивать, нет денег - нет переноса энергии. Отсюда можно сделать вывод, что развитие бесплатных проектов будет или минимальным или его не будет вовсе, а может и отрицательный прогресс будет - ПО будет становиться только хуже.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 12-Июл-19 16:27 
Мы тебя услышали! Давай, подскажи *платный* (за деньги!) модуль (чтобы интегрировать в серерную систему) распознавания *под линукс*.

Подсказка: у Abbyy такого нет, не работают они с линуксом, даже за деньги.

ЗЫ. информация давности примерно год, вдруг что-то и поменялось?


"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Ретроград , 12-Июл-19 17:30 
Норкоман чтоле? Всю жизнь у них был Finereader Engine под линуксы:

https://www.abbyy.com/en-eu/support/frengine/11linux/info/sr/


"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Michael Shigorin , 12-Июл-19 19:13 
Ну далеко не всю жизнь, но достаточно давно, чтоб удивиться тому, почему сами-то встали на полдороги.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено mandms , 12-Июл-19 17:49 
И нет и да.
Нет, потому, что проект, приобретя пользователей (кинетическую энергию, в ваших терминах) - то есть раскрутив свой маховик (разов/часов использования, количества пользоватетелей) - привлекает как клиентов бизнес, а как производителя и оказывающего сервис сопровождения корпорацию, одну или больше и продолжает жить на этом. такова тут "передача энергии" в виде денег или "отчужденного труда"

Да, потому, что если проект не раскрутится до многих юзеров и не приобретет многих девелоперов, то поддержки не получит. С сообтветствующим циклом обратной связи которая останавливает или тормозит.
То есть на такой проект кроме естественной силы развития и разгона, порожденного самой идеей и нужности данного софта, действует другая естественная сила торможения.


"Релиз системы распознавания текста Tesseract 4.1"
Отправлено kknight , 12-Июл-19 16:06 
Я пробовал Тессерактом распознавать старые листы, сделанные на печатной машинке. Качество там сильно так себе. По дефолту Тессеракт вообще не справлялся. Я потратил время на создание модели обучения, вручную обводил в Box editor каждую буковку, всё сконвертировал как надо. На результат это сильно не повлияло - как был мусор, так и остался. Не готов пока Тессеракт.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Ретроград , 12-Июл-19 17:32 
С hires сканов он распознает очень даже нормально, пользовал его для оцифровки книжек. Только там надо минимум 600 dpi, а лучше 1200 и выше.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Tita_M , 12-Июл-19 18:28 
Части распознанного текста уже не вырезает?
Когда-то давно пробовал им распознавать .djvu файлы. Так он "глотал" случайные части текста и выходной файл получался без части текста. Также попадались файлы с флибусты с подобной проблемой - видимо я не один такой.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено forum reader , 12-Июл-19 20:49 
>Части распознанного текста уже не вырезает?

Вырезает мат и неполиткоректтность

>>В движке LSTM добавлена поддержка белых и чёрных списков;


"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 13-Июл-19 11:28 
Фу. Не чёрных, а альтернативно белых.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено none_first , 15-Июл-19 17:16 
> Я пробовал Тессерактом распознавать старые листы, сделанные на печатной машинке. Качество
> там сильно так себе. По дефолту Тессеракт вообще не справлялся. Я
> потратил время на создание модели обучения, вручную обводил в Box editor
> каждую буковку, всё сконвертировал как надо. На результат это сильно не
> повлияло - как был мусор, так и остался. Не готов пока
> Тессеракт.

поставьте scantailor, у него есть пакетный режим обработки (по настройкам) из CLI (если надо несколько страниц), получите на выходе картинки в 600dpi, далее tesseract. Я получал результат лучше файнридера (в смысле рапознавания текста)
Скантейлор имеет ф-ции выравнивания строк (эксперементальные) - у меня работало без нареканий. Как пример: фотка (с сильными шумами, с искаженной перспективой) с банковскими реквизитами, сделанная телефоном, через пленку, была распознана достойно


"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 12-Июл-19 21:59 
Увы, по прежнему альтернативы Finereader не видно. Тут дело скорей даже не в самом движке сколько в предобученных моделях. В ABBY использовали нейросети достаточно давно плюс сотрудничество с кучей корпоративных клиентов (в т.ч. библиотек), как итог у них значительно лучше предобученные модели. По прежнему гоняю виртуалку когда надо что-то из сканов перегнать в цифру.  

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 12-Июл-19 22:03 
Плюс GUI для Tesseract-а по сравнению с продуктом ABBY мусор. И это еще одна беда. Более чем уверен что Tesseract где-то продается вместе нормальными моделями распознавания и GUI.  

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 13-Июл-19 16:26 
Это посмотрите https://help.ubuntu.ru/wiki/yagf

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 13-Июл-19 16:28 
YAGF is a graphical front-end for cuneiform and tesseract OCR tools
https://sourceforge.net/projects/yagf-ocr/

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено alexrayne , 12-Июл-19 23:14 
recognita+ приятная штучка. только падает на вин7. надо из виртуалки видимо пускать

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 13-Июл-19 10:35 
Поддержка только Windows не позволяет серьезно рассматривать данный продукт несмотря на повсеместное распространение. Ведь мы же серьезные люди. А так вполне удачен gimageReader. Правда, форматирование не сохраняет.
p.s. Есть сомнение относительно необходимости OCR как класса ПО. По крайней мере некоторые уже имеют проблемы от его использования. Я имею в виду диссертантов и обвинение в плагиате. Поэтому советую, при острой необходимости заимствования, либо точное цитирование (объем которого ничтожен) либо прочитать источник, закрыть его и изложить своими словами.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 13-Июл-19 10:37 
Добавление. Не существует программ для распознавания формул. В нашей области это проблема, требующая времени для решения. А распознавание текста - разве что для гуманитариев.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 13-Июл-19 11:28 
Finereader есть под линукс.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено iPony129412 , 13-Июл-19 11:48 
Только серверный

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 13-Июл-19 15:07 
Это? "ABBYY FineReader Engine is the Software Development Kit (SDK) to integrate multilingual text recognition and conversion technologies into external applications".

Пользовательских (числе серверных) продуктов нет для систем, отличных от Windows.


"Релиз системы распознавания текста Tesseract 4.1"
Отправлено iPony129412 , 14-Июл-19 07:37 
Ну типа того. Есть разве что ещё вебный сервис от них для обычных пользователей.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 13-Июл-19 15:07 
Ссылку можно?

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Дегенератор , 14-Июл-19 16:34 
Кто-то должен страдать )))

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 13-Июл-19 11:55 
Текст из капчи осилит?

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 13-Июл-19 17:06 
сам уже не справляешься?

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 13-Июл-19 17:09 
Я не робот!

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 13-Июл-19 17:36 
угу, продолжайте разгадывать, осталось еще четыре стадии

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено iPony129412 , 14-Июл-19 07:38 
Ты отстал от жизни.
Теперь человеком, является только тот, кто распознаёт автобусы 🚌, переходы, гидранты...
У меня плохо получается, но я учусь.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 14-Июл-19 19:09 
По0моему нужно быть роботом что бы угадать некоторые витрины с автобусами

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Аноним , 14-Июл-19 20:36 
А что мешает запилить на основе нейросетей нормальный распознавальщик? Пусть он будет в 10 раз тормознее на CPU, тут главное - качество.

"Релиз системы распознавания текста Tesseract 4.1"
Отправлено Ordu , 15-Июл-19 10:54 
Из новости:

> Предлагается два движка распознавания: [...] и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности.