The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

Релиз системы распознавания текста Tesseract 4.0, opennews (??), 01-Ноя-18, (0) [смотреть все]

Сообщения [Сортировка по времени | RSS]


8. "Релиз системы распознавания текста Tesseract 4.0"  –2 +/
Сообщение от Аноним (5), 01-Ноя-18, 02:58 
Tesseract 4.0 может распознавать текст на скрееншотах окошек программ, веб-страниц и т.п.?
Ответить | Правка | Наверх | Cообщить модератору

11. "Релиз системы распознавания текста Tesseract 4.0"  +7 +/
Сообщение от Shevchuk (ok), 01-Ноя-18, 05:25 
https://i.imgur.com/uxab5b7.png
Ответить | Правка | Наверх | Cообщить модератору

26. "Релиз системы распознавания текста Tesseract 4.0"  +1 +/
Сообщение от Аноним (26), 01-Ноя-18, 09:40 
Нормальный, конечно, результат, но такой чистый текст можно бы и получше распознавать. Бросаются в глаза на ровном месте съеденные пробелы, кривое определение совершенно нормальных букв. Возможно, на русском языке мало натренировали, но для сканов, например, я бы это пока не использовал.
Ответить | Правка | Наверх | Cообщить модератору

34. "Релиз системы распознавания текста Tesseract 4.0"  +1 +/
Сообщение от Atterratio (ok), 01-Ноя-18, 11:32 
Я работал со старой версией программы, ей можно скармливать данные, и распознавание значительно улучшится.
Ответить | Правка | Наверх | Cообщить модератору

47. "Релиз системы распознавания текста Tesseract 4.0"  +/
Сообщение от h31 (ok), 01-Ноя-18, 15:30 
Программы распознавания обычно затачивают под отсканированные изображения, где разрешение под 600 DPI. На обычном экране, где мало того, что всего лишь 96 DPI, да ещё и радуга из-за сглаживания, работать это будет плохо.
Ответить | Правка | К родителю #26 | Наверх | Cообщить модератору

61. "Релиз системы распознавания текста Tesseract 4.0"  –2 +/
Сообщение от lg (?), 02-Ноя-18, 08:44 
с экрана боде тработать идеально, просто не адаптирована система. Символы пиксель в пиксель совпадают при одинаковом шрифте кегле и разрешении.
Ответить | Правка | Наверх | Cообщить модератору

36. "Релиз системы распознавания текста Tesseract 4.0"  +/
Сообщение от fske (?), 01-Ноя-18, 11:52 
это у вас меню в заголовке окна?
Ответить | Правка | К родителю #11 | Наверх | Cообщить модератору

44. "Релиз системы распознавания текста Tesseract 4.0"  +/
Сообщение от Shevchuk (ok), 01-Ноя-18, 14:59 
Да. Не то чтобы я большой любитель CSD, правда, скорее наоборот. Просто если уж оно впилено в приложение, результат принудительного отключения выглядит ещё хуже.
Ответить | Правка | Наверх | Cообщить модератору

37. "Релиз системы распознавания текста Tesseract 4.0"  +1 +/
Сообщение от kknight (ok), 01-Ноя-18, 12:13 
у gImageReader есть нормальный Qt-интерфейс, вообще-то.
Ответить | Правка | К родителю #11 | Наверх | Cообщить модератору

41. "Релиз системы распознавания текста Tesseract 4.0"  +/
Сообщение от Shevchuk (ok), 01-Ноя-18, 14:52 
О, спасибо, не знал. В репах Debian и Ubuntu только GTK*, и пользуюсь я им настолько редко, что добавлять PPA ради этого, конечно, не буду : )

* Обсуждение добавления Qt версии: https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=891414

Ответить | Правка | Наверх | Cообщить модератору

42. "Релиз системы распознавания текста Tesseract 4.0"  +/
Сообщение от Аноним (42), 01-Ноя-18, 14:53 
А смесь русского и английского он умеет распознавать? Или "Немек Раскаага" неизбежен?
Ответить | Правка | К родителю #11 | Наверх | Cообщить модератору

45. "Релиз системы распознавания текста Tesseract 4.0"  +/
Сообщение от Shevchuk (ok), 01-Ноя-18, 15:17 
Вообще да (и это было включено, см. кнопку "Распознать всё rus + eng" в заголовке окна), но в данном случае отработало оно на английских словах слабенько. Повторюсь, что запускаю я его крайне редко, и здесь никаких вообще приготовлений или настроек не делал: просто вставил скрин и распознал. Наверное, если её покормить данными, как выше пишет Atterratio, ситуация может улучшиться, но из коробки вот так.
Ответить | Правка | Наверх | Cообщить модератору

66. "Релиз системы распознавания текста Tesseract 4.0"  +/
Сообщение от Аноним (42), 02-Ноя-18, 16:54 
FineReader 4 (с другими не работал почти) умел объединять языки в любых комбинациях. И распознавало нормально. В чём проблема для Тессеракта? (Вопрос не риторический, серьёзно хочу понять, какие есть принципиальные отличия.)

Раз уж речь об ФР, умеет ли Тессеракт руководствоваться при распознавании системами проверки орфографии и грамматики? То есть из нескольких вариантов выбирать слово, проходящее проверку Hunspell и LanguageTool?

Ответить | Правка | Наверх | Cообщить модератору

68. "Релиз системы распознавания текста Tesseract 4.0"  –1 +/
Сообщение от Ю.Т. (?), 02-Ноя-18, 22:13 
> FineReader 4 (с другими не работал почти) умел объединять языки в любых
> комбинациях. И распознавало нормально. В чём проблема для Тессеракта? (Вопрос не
> риторический, серьёзно хочу понять, какие есть принципиальные отличия.)

Давно я очень работал с ФР, но помню, что и он путался в многоязычном тексте. Тессеракт умеет обрабатывать многоязычный, но сбивается в случаях слов, допускающих разл. толкования. Делу помогло бы наличие словарной проверки (о которой далее была речь) или, скажем, произвольного указания стат. весов для выбора в таких случаях, но этого то ли нет, то ли готового нет.

А вообще Тессеракт 4-й серии это приятнейшее открытие в СПО последних двух с лишним лет. Изрядно помогает в работе.

Ответить | Правка | Наверх | Cообщить модератору

77. "Релиз системы распознавания текста Tesseract 4.0"  +/
Сообщение от GenuZ (?), 15-Ноя-18, 15:56 
Последние несколько файнридеров распознают на странице то, чего там нет. Находят дефекты бумаги, дырки от дыроколов, мелкую рукописную пометку, подчёркивание и прочее. И всё это пытается обратить в печатный текст.
И хрен бы с ним, что получается плохо - он делает это в виде "надписей" (читай фрейма с текстом, поверх основного текста). Или они начинают пытаться повторять форматирование 1 в 1. Но получается половина текста в заголовке так, половина эдак. Текст нормально распознаёт, но начинает выдумывать форматирование.
Это всё черррртовски сложно потом удаляется, форматируется, приводится в состояние plain-text (так как смешивается текст с мусором) и т.д.

Так что я с нетерпением жду, когда тессеракт станет чуточку лучше в мелочах, ибо основной свой функционал он уже умеет достаточно неплохо. Проблема больше даже во внешних gui, которые пор юзабилити надо бы допилить немного.

Ответить | Правка | К родителю #66 | Наверх | Cообщить модератору

71. "Релиз системы распознавания текста Tesseract 4.0"  +4 +/
Сообщение от Led (ok), 03-Ноя-18, 00:40 
> смесь русского и английского

Это как - английский со скрепами?

Ответить | Правка | К родителю #42 | Наверх | Cообщить модератору

76. "Релиз системы распознавания текста Tesseract 4.0"  –2 +/
Сообщение от Аноним (42), 07-Ноя-18, 13:37 
Это как на скриншоте выше по дереву: https://www.opennet.ru/openforum/vsluhforumID3/115708.html#11
Ответить | Правка | Наверх | Cообщить модератору

18. "Релиз системы распознавания текста Tesseract 4.0"  –1 +/
Сообщение от Ю.Т. (?), 01-Ноя-18, 07:27 
Может, и не только.
В целом серия 3 была ещё так себе, но серия 4 в бетах и предвыпусках, т.е. минимум с 2016, это вполне достойный инструмент.
Из минусов: может сбиваться на обработке нетривиальной вёрстки полосы (две колонки текста, таблицы). Обучение (в частности новым буквам) документировано очень запутанно. Неудобный трекер (но сейчас-то гуглоплюс придётся сменить?..).
Ответить | Правка | К родителю #8 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру