The OpenNET Project / Index page

[ новости/++ | форум | wiki | теги | ]

31.10.2018 23:58  Релиз системы распознавания текста Tesseract 4.0

Опубликован релиз системы оптического распознавания текста Tesseract 4.0, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), PDF и TSV. Исходные тексты проекта распространяются под лицензией Apache 2.0.

Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Система включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF.

Основные улучшения в Tesseract 4.0:

  • Новый движок распознавания, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Старый движок, распознающий текст на уровне шаблонов отдельных символов, продолжает поставляться в качестве опции. Альтернативный движок Cube удалён из кодовой базы;
  • Добавлены сопутствующие новому OCR-движку утилиты для тренировки модели машинного обучения. Готовые натренированные модели опубликованы для 123 языков;
  • Для нового движка распознавания подготовлены модули для оптимизации производительности при помощи OpenMP и SIMD-инструкций AVX2, AVX или SSE4.1;
  • Осуществлён переход к нумерации версий в соответствии со спецификацией "Cемантическое версионирование", подразумевающей использование нотации X.Y.Z (вместо ранее используемой W.X.Y.Z), в которой X меняется при внесении изменений, нарушающих обратную совместимость, Y меняется при расширении функциональности и Z при исправлении ошибок.
  • Обновлена сборочная система. Для сборки теперь требуется компилятор с поддержкой C++ 11. Добавлены unit-тесты. Добавлен режим сборки без старого движка распознавания. Выполнена реорганизация дерева исходных текстов. Проведена чистка устаревшего кода;
  • Улучшена обработка многостраничных TIFF-изображений;
  • Улучшен экспорт в PDF.


  1. Главная ссылка к новости (https://groups.google.com/foru...)
  2. OpenNews: Новая версия оболочки для распознавания текста YAGF 0.9.4
  3. OpenNews: Проект по созданию открытого робота-сканера для оцифровки документов
  4. OpenNews: Релиз системы распознавания текстов Cuneiform 1.1.0
  5. OpenNews: Релиз системы распознавания текста Tesseract 3.0 с поддержкой русского языка
  6. OpenNews: Выпуск системы распознавания текста GNU Ocrad 0.23
Лицензия: CC-BY
Тип: Программы
Ключевые слова: tesseract, ocr
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение Ajax/Линейный | Раскрыть все сообщения | RSS
 
  • 1.5, Аноним (5), 02:32, 01/11/2018 [ответить] [показать ветку] [···]    [к модератору]
  • –5 +/
    Версия для Windows есть?
     
     
  • 2.9, Аноним (-), 03:03, 01/11/2018 [^] [ответить]    [к модератору]
  • +1 +/
    Внезапно, да -> https://github.com/UB-Mannheim/tesseract/wiki
    Мог бы и сам скомпилить, или не виндавз-вэй?
     
     
  • 3.27, Аноним (27), 09:58, 01/11/2018 [^] [ответить]    [к модератору]
  • –3 +/
    Версия 4.0.0.20181030 на Windows XP установилась, но не работает. Справка не запускается. Пишет msvcrt.dll точка входа в процедуру не найдена. В версии 3.05.02-20180621 справка запустилась.
     
     
  • 4.46, h31 (ok), 15:27, 01/11/2018 [^] [ответить]     [к модератору]
  • –1 +/
    Скорее всего собрано новыми версиями вижуал студии, где выбросили поддержку WinX... весь текст скрыт [показать]
     
  • 4.49, Аноним (-), 15:53, 01/11/2018 [^] [ответить]    [к модератору]  
  • –1 +/
    > msvcrt.dll

    Вангую, в системе отсутствует c++ redistributable runtime, скорее всего 2017. Скачать можно отсюда https://visualstudio.microsoft.com/downloads/ , но не факт, что на ХРю установится.

     
  • 4.56, Аноним (56), 21:51, 01/11/2018 [^] [ответить]    [к модератору]  
  • +4 +/
    >Версия 4.0.0.20181030 на Windows XP установилась, но не работает.

    Так бывает, когда используешь ОС 17-летней давности. Ты бы ещё на Red Hat Linux 7 (не путать с RHEL) попытался поставить.

     
     
  • 5.59, Аноним (59), 08:03, 02/11/2018 [^] [ответить]     [к модератору]  
  • –2 +/
    Да так бывает Но не совсем согласен с Вами Windows XP без сервис паков и обнов... весь текст скрыт [показать]
     
     
  • 6.60, lg (?), 08:42, 02/11/2018 [^] [ответить]    [к модератору]  
  • +/
    >>есть встроенная поддержка прозрачных тем.

    уже нет =)

     
  • 6.63, iPony (?), 11:20, 02/11/2018 [^] [ответить]    [к модератору]  
  • –2 +/
    > Windows XP без сервис паков и обновлений не поддерживала USB

    Обман. Не поддерживала USB 2.0. А USB вполне.
    А так всё равно- 17 летняя ОС по архитектуре.

     
     
  • 7.75, neit95 (ok), 18:48, 04/11/2018 [^] [ответить]    [к модератору]  
  • +/
    По архитектуре она Windows NT, как и более современные Windows'ы.
     
  • 6.64, Аноним (64), 11:38, 02/11/2018 [^] [ответить]     [к модератору]  
  • –1 +/
    Да-да, это всё заговор Улучшение безопасности, более-менее адекватный сэндбокси... весь текст скрыт [показать]
     
     
  • 7.74, asdasd (?), 20:37, 03/11/2018 [^] [ответить]    [к модератору]  
  • +/
    А заодно более убогие элеваторы процессов, I/O, неадекватный расход оперативки ни на что и неадекватное количество занимаемого места на винчестере.
     
  • 6.65, Аноним (65), 13:47, 02/11/2018 [^] [ответить]    [к модератору]  
  • +/
    USB винда поддерживает ещё с Windows 95 OSR2, для которой мелкомягкие специальную обнову выпустили. В Win98 и после неё - из коробки.
     
  • 1.6, Аноним (5), 02:33, 01/11/2018 [ответить] [показать ветку] [···]    [к модератору]  
  • –1 +/
    К новости не хватает скрееншотов.
     
     
  • 2.38, Онаним (?), 12:52, 01/11/2018 [^] [ответить]    [к модератору]  
  • +/
    Это чисто движок вроде, либа, интерфейс сделай сам.
     
  • 1.7, Аноним (5), 02:43, 01/11/2018 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    > Результат может сохраняться как открытым текстом, так и в форматах HTML, PDF и TSV.

    Недостаточно поддерживаемых форматов, ещё нужно хотя-бы *.odt,, *.rtf *.doc...

     
     
  • 2.22, mikhailnov (ok), 08:10, 01/11/2018 [^] [ответить]    [к модератору]  
  • +/
    От этого мало толку, т.к. нет нормального сохранения исходного форматирования текста.
     
     
  • 3.50, Аноним (50), 16:31, 01/11/2018 [^] [ответить]    [к модератору]  
  • +/
    А чем плох hOCR?
     
  • 1.8, Аноним (5), 02:58, 01/11/2018 [ответить] [показать ветку] [···]    [к модератору]  
  • –2 +/
    Tesseract 4.0 может распознавать текст на скрееншотах окошек программ, веб-страниц и т.п.?
     
     
  • 2.11, Shevchuk (ok), 05:25, 01/11/2018 [^] [ответить]    [к модератору]  
  • +7 +/
    https://i.imgur.com/uxab5b7.png
     
     
  • 3.26, Аноним (26), 09:40, 01/11/2018 [^] [ответить]     [к модератору]  
  • +1 +/
    Нормальный, конечно, результат, но такой чистый текст можно бы и получше распозн... весь текст скрыт [показать]
     
     
  • 4.34, Atterratio (ok), 11:32, 01/11/2018 [^] [ответить]    [к модератору]  
  • +1 +/
    Я работал со старой версией программы, ей можно скармливать данные, и распознавание значительно улучшится.
     
  • 4.47, h31 (ok), 15:30, 01/11/2018 [^] [ответить]     [к модератору]  
  • +/
    Программы распознавания обычно затачивают под отсканированные изображения, где р... весь текст скрыт [показать]
     
     
  • 5.61, lg (?), 08:44, 02/11/2018 [^] [ответить]    [к модератору]  
  • –1 +/
    с экрана боде тработать идеально, просто не адаптирована система. Символы пиксель в пиксель совпадают при одинаковом шрифте кегле и разрешении.
     
  • 3.36, fske (?), 11:52, 01/11/2018 [^] [ответить]    [к модератору]  
  • +/
    это у вас меню в заголовке окна?
     
     
  • 4.44, Shevchuk (ok), 14:59, 01/11/2018 [^] [ответить]    [к модератору]  
  • +/
    Да. Не то чтобы я большой любитель CSD, правда, скорее наоборот. Просто если уж оно впилено в приложение, результат принудительного отключения выглядит ещё хуже.
     
  • 3.37, kknight (ok), 12:13, 01/11/2018 [^] [ответить]    [к модератору]  
  • +1 +/
    у gImageReader есть нормальный Qt-интерфейс, вообще-то.
     
     
  • 4.41, Shevchuk (ok), 14:52, 01/11/2018 [^] [ответить]     [к модератору]  
  • +/
    О, спасибо, не знал В репах Debian и Ubuntu только GTK , и пользуюсь я им насто... весь текст скрыт [показать]
     
  • 3.42, Аноним (42), 14:53, 01/11/2018 [^] [ответить]    [к модератору]  
  • +/
    А смесь русского и английского он умеет распознавать? Или "Немек Раскаага" неизбежен?
     
     
  • 4.45, Shevchuk (ok), 15:17, 01/11/2018 [^] [ответить]     [к модератору]  
  • +/
    Вообще да и это было включено, см кнопку Распознать всё rus eng в заголовк... весь текст скрыт [показать]
     
     
  • 5.66, Аноним (42), 16:54, 02/11/2018 [^] [ответить]     [к модератору]  
  • +/
    FineReader 4 с другими не работал почти умел объединять языки в любых комбинац... весь текст скрыт [показать]
     
     
  • 6.68, Ю.Т. (?), 22:13, 02/11/2018 [^] [ответить]     [к модератору]  
  • –1 +/
    Давно я очень работал с ФР, но помню, что и он путался в многоязычном тексте Те... весь текст скрыт [показать]
     
  • 4.71, Led (ok), 00:40, 03/11/2018 [^] [ответить]    [к модератору]  
  • +3 +/
    > смесь русского и английского

    Это как - английский со скрепами?

     
     
  • 5.76, Аноним (42), 13:37, 07/11/2018 [^] [ответить]    [к модератору]  
  • +/
    Это как на скриншоте выше по дереву: https://www.opennet.ru/openforum/vsluhforumID3/115708.html#11
     
  • 2.18, Ю.Т. (?), 07:27, 01/11/2018 [^] [ответить]     [к модератору]  
  • –1 +/
    Может, и не только В целом серия 3 была ещё так себе, но серия 4 в бетах и пред... весь текст скрыт [показать]
     
  • 1.10, iPony (?), 04:16, 01/11/2018 [ответить] [показать ветку] [···]    [к модератору]  
  • –2 +/
    А гуля то нет.
    Был YAGF, но Qt4
     
     
  • 2.12, Shevchuk (ok), 05:26, 01/11/2018 [^] [ответить]    [к модератору]  
  • +/
    gImageReader
     
     
  • 3.14, Аноним (14), 06:49, 01/11/2018 [^] [ответить]    [к модератору]  
  • –1 +/
    gImageReader не работает на macOS
     
     
  • 4.15, ryoken (ok), 06:58, 01/11/2018 [^] [ответить]    [к модератору]  
  • +6 +/
    МакОС ненужен
     
     
  • 5.24, Qwerty (??), 09:25, 01/11/2018 [^] [ответить]    [к модератору]  
  • –1 +/
    Вопрос не в ненужности, а в том, кросплатформенный ли софт, который называют кросплатформенным?
     
     
  • 6.39, Клыкастый (ok), 12:55, 01/11/2018 [^] [ответить]    [к модератору]  
  • –1 +/
    собери/напиши - будет. пока никому не нужно, получается
     
  • 6.62, lg (?), 08:48, 02/11/2018 [^] [ответить]    [к модератору]  
  • –1 +/
    кросплатформенный - это тот который работает на каких-то двух платформах, например на винде и на андроид =)
     
  • 2.19, Аноним (19), 07:52, 01/11/2018 [^] [ответить]    [к модератору]  
  • +/
    https://github.com/tesseract-ocr/tesseract/wiki/User-Projects-Б─⌠-3rdParty
     
  • 2.21, mikhailnov (ok), 08:09, 01/11/2018 [^] [ответить]    [к модератору]  
  • +/
    Gimagereader-Qt
     
  • 1.16, ryoken (ok), 06:59, 01/11/2018 [ответить] [показать ветку] [···]    [к модератору]  
  • –1 +/
    Распознаётся ли набранное левой задней ногой после пьянки?
     
     
  • 2.25, Аноним (25), 09:31, 01/11/2018 [^] [ответить]    [к модератору]  
  • +4 +/
    Да, но распознан будет на основе нейронных сетей построенных на куриных мозгах и ответ будет написан "как курица лапой!" ;)
     
  • 2.30, meequz (ok), 10:31, 01/11/2018 [^] [ответить]    [к модератору]  
  • +/
    Зачем распознавать набранное?
     
  • 2.33, Аноним (33), 10:58, 01/11/2018 [^] [ответить]    [к модератору]  
  • +/
    Ох, ещё бы про член вспомнил.
     
  • 1.28, Аноним (28), 10:07, 01/11/2018 [ответить] [показать ветку] [···]    [к модератору]  
  • +3 +/
    >Осуществлён переход к нумерации версий в соответствии со спецификацией "Cемантическое версионирование", подразумевающей использование нотации X.Y.Z

    Ну наконец то хоть в одном проекте адекваты.

     
     
  • 2.32, Аноним (33), 10:56, 01/11/2018 [^] [ответить]    [к модератору]  
  • –1 +/
    И чё? Как-будто версии, например, ядра не в формате X.Y.Z : 4.14.78, 4.18.16 Или GCC : 7.3.0

     
  • 1.29, Аноним (27), 10:13, 01/11/2018 [ответить] [показать ветку] [···]    [к модератору]  
  • –1 +/
    Это правильная команда для сохранения в текстовый файл?
    tesseract phototest.tif phototest txt
     
     
  • 2.40, Клыкастый (ok), 12:58, 01/11/2018 [^] [ответить]    [к модератору]  
  • +3 +/
    уже бы прочёл ман, выхлоп tesseract --help, запустил и точно бы знал.
     
  • 1.43, Аноним (42), 14:55, 01/11/2018 [ответить] [показать ветку] [···]    [к модератору]  
  • –1 +/
    Что с распознаванием таблиц? Не собираются этим заниматься?
     
     
  • 2.48, Shevchuk (ok), 15:34, 01/11/2018 [^] [ответить]     [к модератору]  
  • +1 +/
    Есть Tabula открытое ПО для извлечения данных из таблиц , они хотели бы, но сей... весь текст скрыт [показать]
     
  • 2.51, zeronet (ok), 18:53, 01/11/2018 [^] [ответить]    [к модератору]  
  • +/
    Все таки не забросили проект ... Маст хев. Еще в 2000-х тысячных пытался пользоваться... Но с русским тогда не особо дружили разработчики
     
     
  • 3.67, Кккк (?), 20:18, 02/11/2018 [^] [ответить]    [к модератору]  
  • –1 +/
    С русским из коробки и сейчас не очень, чтобы получить хоть какой-Нить приемлемый результат в реальных документах нужно много поучить, да и резальщик не очень.
     
  • 1.52, lol (??), 19:53, 01/11/2018 [ответить] [показать ветку] [···]    [к модератору]  
  • –1 +/
    Как оно в сравнении с FineReader? При условии, что сканы хорошо читаемые и вёрстка без изысков.
     
     
  • 2.54, Аноним (54), 20:03, 01/11/2018 [^] [ответить]    [к модератору]  
  • –1 +/
    В прошлой версии был кошмар.
     
  • 2.57, Ю.Т. (?), 21:57, 01/11/2018 [^] [ответить]    [к модератору]  
  • –1 +/
    > Как оно в сравнении с FineReader? При условии, что сканы хорошо читаемые
    > и вёрстка без изысков.

    Серия 4 неплохо, справляется с различием "длинного с" и "f", хотя некоторые сканы приходится масштабировать и подкручивать гамму. Нормально проходит размер растра примерно 2500 на 3600 точек на лист А4.

     
  • 1.73, werter (??), 18:45, 03/11/2018 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched
    https://github.com/jbarlow83/OCRmyPDF
     

     Добавить комментарий
    Имя:
    E-Mail:
    Заголовок:
    Текст:


      Закладки на сайте
      Проследить за страницей
    Created 1996-2018 by Maxim Chirkov  
    ДобавитьПоддержатьВебмастеруГИД  
    Hosting by Ihor