URL: https://www.opennet.ru/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 126002
[ Назад ]

Исходное сообщение
"Релиз системы распознавания текста Tesseract 5.0"

Отправлено opennews , 01-Дек-21 12:59 
Опубликован релиз системы оптического распознавания текста Tesseract 4.1, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский  и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR),  ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты  проекта распространяются под лицензией Apache 2.0...

Подробнее: https://www.opennet.ru/opennews/art.shtml?num=56259


Содержание

Сообщения в этом обсуждении
"Релиз системы распознавания текста Tesseract 5.0"
Отправлено А где же каменты , 01-Дек-21 13:01 
Название напоминает о фильме куб 2.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено _hide_ , 01-Дек-21 15:14 
Результаты распознавания напоминают "Приключения Алисы в Стране чудес"

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено _hide_ , 01-Дек-21 15:31 
Всё зависит от того, какие использовать словари.
Если использовать те, что в новости, то получается не очень. С https://github.com/tesseract-ocr/tessdata получше, но тоже есть косяки.
Поманьячив с фильтрами, получаем вполне корректный текст.
Вывод: нужно.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 16:00 
А мне о игре

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 02-Дек-21 06:00 
И ещё "массаракш" из Обитаемого Острова

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 13:02 
>Ветка "master" в Git переименована в "main".

Очень важное изменение!


"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 13:06 
Всё как у дистрибутивов. Теперь по фен-шую.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 15:32 
Всё как у других IT-проектов.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Тот_Самый_Анонимус , 01-Дек-21 18:57 
>Всё как патрия приказала.

Очевидный фикс, не стоит благодарности.


"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 02-Дек-21 03:28 
Это свобода, как говорят у них там

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 02-Дек-21 09:33 
это единственное, что привело к такому увеличению номера версии. блм и прочие чернильники только так узнают безопасность продукта.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Анонимян , 06-Дек-21 12:09 
Это самое важное! Лишь бы не оскорблять нигеров. Хотя казалось бы , неужели они читают сорцы?

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено anonymous , 01-Дек-21 13:10 
Так 5.0 или 4.1?! Вы уж там как-нибудь определитесь.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено anonymous , 01-Дек-21 13:24 
По ходу зарелизился 4.1, а теперь начинается развитие 5.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено s.d.s. , 01-Дек-21 13:37 
https://github.com/tesseract-ocr/tesseract/releases/tag/5.0.0

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено nymous , 01-Дек-21 13:55 
4.1.0 Release
@zdenop zdenop released this 07 Jul 2019

Похоже, рыбу прошлой новости толком не переписали.


"Релиз системы распознавания текста Tesseract 5.0"
Отправлено nymous , 01-Дек-21 13:56 
Так и есть

https://www.opennet.ru/opennews/art.shtml?num=51081


"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 15:33 
5 + 0 == 4 + 1

чё не нравится?


"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 13:11 
Проприетарные типы данных?

А проприетарной алгебры ещё не появилось?


"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 14:03 
Тоже удивился.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 14:08 
Да чушь какая-то в новости.
У них в коде было условно class MyVector {}; class MyString {};
Перешли на STL контейнеры. Всё.
По мнению автора новости любой класс, которого нет в std:: уже проприетарный?

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 22:10 
Это просто перевод кривой. Propietary переводится как собственный, что в контексте типов данных — вполне нормальный эпитет.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 02-Дек-21 06:05 
Не знаю на счёт проприетарной алгебры, но незаконные числа уже есть:

https://en.wikipedia.org/wiki/Illegal_number


"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 13:23 
Довольно слабо распознаёт, я не знаю. Но лучше всё равно ничего нет. Приходится возиться с наложением фильтров, контрастностью, монохромными форматами и всем остальным. Как у гугла на телефонах работает распознование? Другие модели?

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Кир , 01-Дек-21 13:31 
Странно, по моему опыту -- распознает шикарно: без ошибок распознает даже не слишком качественные фотки с телефона. Можно пример плохо распознанного текста (ссылочку на картинку)?

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 13:38 
Любой текст. Мне иероглифы распознавать надо. -_-

В итоге приходится вручную посимвольно рисовать во всяких онлайн сервисах, иначе ничего не понятно. Это очень долго.


"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 13:47 
Как показывает практика, 90% успеха - в препроцессинге картиночки.
Большая часть маленьких приложух и/или статьи про то, как готовить тессеракт, заточены на распознание чеков и сканов, т.е. черного текста на белом и сфотканного под прямым углом.
Ну а если задача отличается, то какой-нибудь OpenCV и погнали экспериментировать))

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 14:09 
Лучше FineReaderа ничего не знаю.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено ананоша , 01-Дек-21 14:11 
По моему опыту в 4.х есть проблемки, потратил несколько недель чтобы добиться корректного распознавания, но все равно есть ошибки на ровном месте, иногда вместо одного символа определяет два других, смешновато получается. Очень ждал 5ый релиз, надеюсь ситуация улучшилась, осталось дождаться порта на жс :)

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено lockywolf , 01-Дек-21 17:35 
Он чувствителен к искажениям картинки. Так то распознаёт хорошо, но именно распознаёт.


"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 02-Дек-21 10:38 
> лучше всё равно ничего нет

А сравнивали?

apt install cuneiform -y


"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 02-Дек-21 12:59 
Сравнивали, сравнивали. Китайского нет в списке поддерживаемых -- толку с него как с козла молока. Последний раз шевелилось 10+ лет назад. Спасибо, сами используйте.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Jh , 02-Дек-21 22:52 
ну не знаю, для бесплатного вполне прилично. Если распечатать текст и отсканировать, то практически 100%.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 02-Дек-21 23:02 
Нестандартные красивые шрифты вообще не распознаёт.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 14:08 
>базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM
>классический, распознающий текст на уровне шаблонов отдельных символов

Сравниили мягкое с тёплым. LSTM - это модель для последовательностей, а не картинок. И кстати уже давно не считается SOTA. Для картинок - CNN.


"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Nuzhny , 01-Дек-21 15:26 
Так текст - это и есть последовательность. Вполне можно распознать символы и для каждого выдать топ-3 самых вероятных, а дальше скормить эту последовательность символов в тот же LSTM для исправления ошибок распознавания.
Ну и про SOTA однозначно сказать нельзя так, в картинки уже пришли трансформеры и вполне успешно.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 21:14 
>Так текст - это и есть последовательность. Вполне можно распознать символы и для каждого выдать топ-3 самых вероятных, а дальше скормить эту последовательность символов в тот же LSTM

Да это понятно. Просто сравнили "тёплое" (распознавание векторов символов из пикселов) с "мягким" (постобработка для получения текста, что графовой моделью, что нейронкой).


"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Андрей , 01-Дек-21 16:05 
При посимвольном распознавании будет много опечаток-ошибок, поэтому распознают словами-последовательностями, для чего собсна и используют ЛСТМ.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 14:16 
Djvu распознавать уже осилили?

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Tesseract50 , 01-Дек-21 14:23 
За километр распознаю, и со словами "мусорное ненужно из прошлого века" удаляю.


"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 02-Дек-21 12:49 
> Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard

Воистину мусорное ненужно из прошлого века, не удаляю только потому что побрезговал поставить


"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 14:27 
Предварительно генерируй изображения страниц через ddjvu, распознавай. То же и распознавания любых PDF и касается - Ghostscript в помощь.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 02-Дек-21 16:13 
Давно уже видел скрипт на perl, который разбирает djvu на картинки (ddjvu), распознает их tesseract, и запихивает результат обратно в djvu текстовым слоем

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 02-Дек-21 17:26 
Нужно в epub из всяких djvu и pdf и желательно без костылей, а напрямую. Finereader, к примеру, так умеет.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 02-Дек-21 23:44 
epub теряет look&feel оригинального документа. Он может быть довеском к djvu для тех, кто читает с телефона, но реально djvu не заменит для старых сканированных доков.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 03-Дек-21 11:31 
Ну тут я бы не был столь категоричен. Потеря look&feel - это скорее проблема fb2, a не epub

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 14:26 
больше всего не хватает сегментирования текста как в файнридере

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 18:15 
Оно там есть как минимум с версии 3, но таблицы действительно до сих пор не распознает.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 14:29 
Какие-то бенчмарки 4.1 vs 5.0 уже подвезли?

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Иваня , 01-Дек-21 15:38 
Чем оно лучше PaddleOCR? 🤔

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 16:39 
А PaddleOCR чем лучше? Распознаёт точнее, работает быстрее?

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Неанон , 01-Дек-21 19:43 
да

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 02-Дек-21 00:55 
А где твои тесты, сравнения, анализ?

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено макпыф , 01-Дек-21 15:39 
> Релиз системы распознавания текста Tesseract 5.0
> Опубликован релиз системы оптического распознавания текста Tesseract 4.1

т.к. 4.1 вышел в 2019 думаю заголовок правильный


"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним12345 , 01-Дек-21 16:39 
Насколько я помню, лет 5 назад с тренировкой моделей и распознаванием текста было не очень

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 18:38 
А нормальное GUI-приложение когда появится, а не васянские поделки?

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 01-Дек-21 21:41 
А какие критерии нормальности? Имхо, 95% случаев gImageReader более чем достаточно.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 02-Дек-21 00:54 
Ты FineReader видел? Можно хотя-бы 10% его функциональности и нормальный человеческий интерфейс?

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 02-Дек-21 01:55 
А что входит в эти 10% процентов?

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 02-Дек-21 12:10 
Ты цену на его серверную (да-да, есть, linoops compatible) версию без ограничений использования видел? А то - да, можно - и интерфейс человеческий, rest api.


"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Jh , 02-Дек-21 22:56 
Сколько стоит лицензия на файнридер?

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 03-Дек-21 13:21 
https://github.com/manisandro/gImageReader выглядит довольно неплохо.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено anonymous , 01-Дек-21 19:21 
> поддерживающей распознавание символов UTF-8

Это как? Коды utf-8 считываются с QR-кода? Как можно по картинке восстановить кодировку? Я понимаю по картинке получить нормализованный юникод. Но в юникоде ведь code point. А конкретная кодировка может быть любой.


"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 03-Дек-21 17:41 
"распознавание всех символов входящих в кодировку УТФ-8"

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 02-Дек-21 00:21 
А "готовые натренированные модели" не обновлялись? Для нейросетей главное даже не движек, а чтоб сами сети качественными были.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 05-Дек-21 12:49 
Забавно! Было слово "движок", потом человек за недостаточностью грамотности подумал (или увидел где-то), что там "ё". Будучи нелюбителем "ё" (или лениво её печатать), стал писать "движек". И вот, теперь это похоже на какую-то чешскую фамилию :)

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 02-Дек-21 10:40 
> YAGF

Пока в настройках не отключил "улучшение качества изображения", утилита завершалась аварийно с любыми движками (так что сабж не при чем).


"Релиз системы распознавания текста Tesseract 5.0"
Отправлено InuYasha , 02-Дек-21 11:26 
Быдстограм нормально парсит. Гламурные кисы под колпаком.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 03-Дек-21 09:55 
Ну теперь то появится бесплатный софт распозначание текста?

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Аноним , 03-Дек-21 13:16 
FineReader и так бесплатен в торрентах. Лучше него всё равно ничего нет.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Vasyan , 07-Дек-21 22:31 
Есь и много, САБЖ, например.

"Релиз системы распознавания текста Tesseract 5.0"
Отправлено Vasyan , 07-Дек-21 22:30 
Типа раньше небыло.