The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Релиз системы распознавания текста Tesseract 3.0 с поддержкой русского языка

04.10.2010 18:15

После трех лет разработки выпущен релиз системы оптического распознавания текста Tesseract 3.0. Одним из самых важных улучшений в новой версии стала поддержка распознавания документов на русском и украинском языках. Изначально система была создана в 1985-1995 годы в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google.

Основные улучшения Tesseract 3.0:

  • Проведена подготовка кода к использованию в многопоточных программах;
  • Добавлен модуль анализа структуры документа;
  • Добавлена поддержка вывода результатов в формате HOCR;
  • В качестве основного средства для ввода/вывода, обработки и анализа изображений теперь используется библиотека Leptonica. Пока использование Leptonica опционально, но в будущих выпусках станет обязательным;
  • Переписаны таблицы сопоставления неоднозначно распознаваемых элементов;
  • Добавлен TessdataManager для совмещения нескольких файлов с данными в один файл;
  • Проведена чистка неиспользуемого кода и прекращена поддержка сборки в VC++6;
  • Добавлены дополнительные языки в систему распознавания.


  1. Главная ссылка к новости (http://groups.google.com/group...)
  2. OpenNews: Пример обучения OCR Tesseract русскому языку.
  3. OpenNews: В Tesseract OCR 2.0 появился модуль для обучения новым языкам
  4. OpenNews: Первый стабильный релиз системы распознавания текстов Cuneiform 1.0
  5. OpenNews: Google взялась за создание открытой системы распознавания текста
  6. OpenNews: Открытие исходных текстов новой системы распознавания текста.
Автор новости: gregg128
Тип: Программы
Ключевые слова: Tesseract, ocr
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение (33) Ajax | 1 уровень | Линейный | Раскрыть всё | RSS
  • 1.1, gregg128 (?), 19:35, 04/10/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Спасибо за редактуру. Я не программер, поэтому неясные мне куски ченджлога просто не стал переводить. Главное в такой новости - heads up :)
     
  • 1.2, gregg128 (?), 19:39, 04/10/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Кто первый соберёт .deb - тому преогромное моё спасибо :)
     
  • 1.3, анонимиус (?), 19:56, 04/10/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Оно лучше cuneiform?
     
     
  • 2.9, paulus (ok), 20:48, 04/10/2010 [^] [^^] [^^^] [ответить]  
  • +/
    > Оно лучше cuneiform?

    кто-нибудь Tesseract вообще хоть раз использовал?

     
     
  • 3.12, Sw00p aka Jerom (?), 23:14, 04/10/2010 [^] [^^] [^^^] [ответить]  
  • +2 +/
    года три назад использовал для борьбы с графическим спамом
    вроде ничего надо было обучать
    а после ваще перешёл на оцр обвчный и выкинул нах (сменил политику борьбы)
     
  • 3.20, Any_Key (?), 11:44, 05/10/2010 [^] [^^] [^^^] [ответить]  
  • +/
    >> Оно лучше cuneiform?
    > кто-нибудь Tesseract вообще хоть раз использовал?

    Угу картинки (с текстом) в текст для индексирования перегонял.
    Работает.
    Только приходилось из SVN брать.

     
  • 2.23, balou (?), 15:27, 05/10/2010 [^] [^^] [^^^] [ответить]  
  • +/
    они друг-друга стоят. одна система не умеет распознавать смешанные тексты, а другая плюёт не только на структуру документа но и текста как такового (легко меняет местами слова и строки)
     

  • 1.4, Аноним (-), 20:14, 04/10/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    >Оно лучше cuneiform?

    зная последний, если какая-либо программа вообще умеет распознавать тексты, то она это уже делает лучше cuneiform

     
     
  • 2.5, аноним (?), 20:21, 04/10/2010 [^] [^^] [^^^] [ответить]  
  • +/
    не преувеличивайте. Cuneiform прекрасно распознает, но только на больших разрешениях...
     
     
  • 3.6, Аноним (-), 20:26, 04/10/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Ага, особенно четкое сканирование где каждая буква в пол монитора умудряется перебирать половину букв, со знаками препинания вообще беда, дай бог если восклицательный знак будет скобкой или наоборот
     
     
  • 4.7, gregg128 (?), 20:40, 04/10/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Вы что-то не так делаете. У меня этот самый cuneiform прекрасно распознавал сканированный текст в большом разрешении. Жаль, что туда нельзя добавить свой язык (мне нужны яти-еры-фиты-ижицы).

    Да, если вы недовольны качеством распознавания - вперёд, коды открыты.

    Можете начать с помощи отважному гражданину, который взялся за рефакторинг: https://code.launchpad.net/~serge-uliss/cuneiform-linux/refactoring

     
  • 4.8, paulus (ok), 20:46, 04/10/2010 [^] [^^] [^^^] [ответить]  
  • +/
    при 600dpi распознает и знаки препинания...
     
  • 4.24, Michael Shigorin (ok), 17:37, 05/10/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Надо не "особенно чёткое", а оптимальное для задачи, дядя.  Смутно припоминается, что в р-не 100..300 dpi, но никак не 1200.
     
  • 2.25, AlexYeCu (?), 18:30, 05/10/2010 [^] [^^] [^^^] [ответить]  
  • +/
    А мне cuneiform понравился. Заполненные текстом страницы распознаёт неплохо, что примечательно — с выводом в html результат куда лучше, чем с выводом в txt (может там какие-то скрытые от пользователя опции используются?).
     

  • 1.10, Frank (??), 21:58, 04/10/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Русский это хорошо, а украинский - вообще прекрасно!
     
  • 1.11, KERNEL_PANIC (ok), 22:44, 04/10/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А он консольный или с мордой? Не, не то чтоб мне была разница, просто в библиотеку блондинкам надо, а их фиг за консоль посадишь:)
     
     
  • 2.13, bircoph (?), 23:54, 04/10/2010 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Это, по большому счёту, библиотека -- там даже консольного интерфейса нет.
    Нет распознования колонок -- так что tesseract без серьёзной доработки мирно отдыхает по сравнению с cuneiform.
     

  • 1.14, Malky (?), 01:19, 05/10/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Собрал я его, работает, даже gscan2pdf согласился с третьей версией работать. А вот язык кроме английского никакой выбрать не получается. При указании любого из прилагаемых языковых файлов  выдает ошибку вида "Error openning data file /usr/local/share/tessdata/russian.traineddata"
     
     
  • 2.15, Аноним (-), 03:53, 05/10/2010 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Please check out the ReadMe before going to Downloads as you need more than one file. Even the windows executables tarball is incomplete as language files are required.

    Перевести? :-)

     

  • 1.16, Malky (?), 09:19, 05/10/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Ну и что вы хотели этим сказать? readme я прочитал, но четкого указания не нашел касательно прикручивания языков. Лишь только то, что должны быть помещены в tassdata. Пробовал и при сборке их помещать в папку tessdata в каталоге и исходниками и после сборки... Если разобрались, то подскажите...
     
     
  • 2.18, evkogan (?), 09:33, 05/10/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Linux только дома.
    Поэкспериментировать смогу только завтра вечером
    А на винде так все просто кладете их в эту папочку и все работает
     
     
  • 3.21, Malky (?), 11:57, 05/10/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Все, разобрался) Тормозил я, указывая полное название языка вместо трех буквенного сокращения. А вот gscan2pdf с новым tesseract работает, но выбрать языки не дает...
     

  • 1.17, evkogan (?), 09:31, 05/10/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Хорошо конечно что распознает русский, давно пора.
    Вот только планируется ли у него распознавание оформления?
     
     
  • 2.19, Sw00p aka Jerom (?), 10:06, 05/10/2010 [^] [^^] [^^^] [ответить]  
  • +/
    дык он ещё три года тому назад русский распозновал - просто надо было его этому обучать
     

  • 1.22, Аноним (-), 15:21, 05/10/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    ищу cuneiform скомпиленнй под Виндоуз.
    Подскажите как в пакетном режиме распознавать в виндоуз ?
     
     
  • 2.26, AlexYeCu (?), 18:34, 05/10/2010 [^] [^^] [^^^] [ответить]  
  • +/
    А как из этого rpm собрать? Тот *.spec, что в комплекте, написан вообще непонятно под что — пути другие, файлы языковых данных другие и т.д. Причём ему почему-то надо попытаться открыть *.traineddata.gz как тарбол, хотя весь спек перерыл (там особо и ничего перерывать) — нет указаний на это.
     
     
  • 3.27, gregg128 (?), 19:26, 05/10/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Не исключено, что спек вообще от версии 2.04 (если не более старшей)
    У них форумы открыты, спросите.
     
  • 3.28, Sw00p aka Jerom (?), 23:28, 05/10/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Из сорцов нормально ставится
     
  • 2.29, Заморский Гость (?), 01:02, 06/10/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Скачай с сайта cuneiform и будет тебе щасье.
     
  • 2.32, HJ (??), 13:41, 20/10/2010 [^] [^^] [^^^] [ответить]  
  • +/
    http://www.cuneiform.ru/downloads/index.html
     

  • 1.30, Levan (?), 00:27, 10/10/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Tesseract 3.0 у меня колонки гораздо точнее распознает чем само распознование слов, иногда даже лучше abbyy!
     
     
  • 2.31, aburdo (ok), 13:02, 12/10/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Есть ли возможность распознавать не по одному файлу, а сразу список картинок?
    У меня около 1000 tif-ов.
     
     
  • 3.33, gregg128 (ok), 22:31, 29/10/2010 [^] [^^] [^^^] [ответить]  
  • +/
    А баш и прочее юникс-счастье вам неведомы ? Делается в одну строчку.
     
     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Спонсоры:
    MIRhosting
    Inferno Solutions
    Hosting by Ihor
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2019 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру