The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]



"Релиз системы распознавания текста Tesseract 5.1"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Релиз системы распознавания текста Tesseract 5.1"  +/
Сообщение от opennews (??), 02-Мрт-22, 11:08 
Опубликован релиз системы оптического распознавания текста Tesseract 5.1, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский  и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR),  ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты  проекта распространяются под лицензией Apache 2.0...

Подробнее: https://www.opennet.ru/opennews/art.shtml?num=56788

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по времени | RSS]


2. "Релиз системы распознавания текста Tesseract 5.1"  +6 +/
Сообщение от Аноним (2), 02-Мрт-22, 11:42 
Использую.
Хороший проект.
Спасибо разработчикам.
Ответить | Правка | Наверх | Cообщить модератору

8. "Релиз системы распознавания текста Tesseract 5.1"  +1 +/
Сообщение от Аноним (8), 02-Мрт-22, 22:34 
Даёшь распознавание ятей(Ѣ)!! (для дореволюционного текста нужно, не руками же это всё править)
Ответить | Правка | Наверх | Cообщить модератору

9. "Релиз системы распознавания текста Tesseract 5.1"  +/
Сообщение от Гнъ Анонимъ (?), 03-Мрт-22, 00:54 
Поддерживаю! Сія мѣра очень кстати!
Ответить | Правка | Наверх | Cообщить модератору

10. "Релиз системы распознавания текста Tesseract 5.1"  +1 +/
Сообщение от barmaley (??), 03-Мрт-22, 09:35 
Право голубчикъ, чтож вы изволите такого писать?
Ответить | Правка | Наверх | Cообщить модератору

11. "Релиз системы распознавания текста Tesseract 5.1"  +/
Сообщение от Гнъ Анонимъ (?), 03-Мрт-22, 12:49 
> Право голубчикъ, чтож вы изволите такого писать?

Я самъ ничего, но много интересныхъ книгъ написано до насъ нашими великими предками

Ответить | Правка | Наверх | Cообщить модератору

3. "Релиз системы распознавания текста Tesseract 5.1"  –5 +/
Сообщение от Аноним (3), 02-Мрт-22, 12:55 
Пока не запилят восстановление стиля и структуры, с детекцией шрифтов, картинок, таблиц и т.д., с сохранением всей обнаруженной инфы, с возможностью для пользователя вмешиваться в процесс, как сделано в FineReader, так и будет бесполезной поделкой.
Ответить | Правка | Наверх | Cообщить модератору

6. "Релиз системы распознавания текста Tesseract 5.1"  +3 +/
Сообщение от Аноним (6), 02-Мрт-22, 16:40 
https://github.com/tesseract-ocr/tesseract/blob/main/CONTRIB...

А вообще и в нынешнем виде он очень полезен: тот же OcrMyPDF, сделанный на его основе - отличная штука для случаев когда надо добавить текстовый слой к отсканированным печатным материалам - например, для удобного поиска по ним.

Ответить | Правка | Наверх | Cообщить модератору

4. "Релиз системы распознавания текста Tesseract 5.1"  +/
Сообщение от Аноним (3), 02-Мрт-22, 12:56 
>на базе рекуррентной нейронной сети LSTM

Продвинутые ребята уже 7 лет как используют трансформеры.

Ответить | Правка | Наверх | Cообщить модератору

5. "Релиз системы распознавания текста Tesseract 5.1"  +/
Сообщение от iLex (ok), 02-Мрт-22, 16:27 
У трансформеров есть неприятный недостаток - они требуют ОЧЕНЬ большого объёма обучающей выборки, чтобы механизм Multi-head attention нормально работал. Подозреваю, у разработчиков Tesseract попросту нет ресурсов, чтоб вручную разметить нужные объёмы. Так что трансформеры - это игрушка крупных корпораций.
А на малых выборках LSTM'ки кроют трансформеры по полной.
Ответить | Правка | Наверх | Cообщить модератору

7. "Релиз системы распознавания текста Tesseract 5.1"  +/
Сообщение от Аноним (3), 02-Мрт-22, 20:27 
>Подозреваю, у разработчиков Tesseract попросту нет ресурсов, чтоб вручную разметить нужные объёмы

Трансформеры тренируют на неразмеченных данных. Им нужна модель, понимающая структуру текста, к которой можно приделать распознающую модель, чтобы предсказывать распределение вероятностей для символа при заданной картинке. Для этого разметка не нужна. Нужна модель трансформер на чистом тексте (входы и выходы - 1-hot) + модель-распознавалка, выдающая распределение вероятностей для символа. Веса трансформера для начала можно и нужно заморозить.

Ответить | Правка | Наверх | Cообщить модератору

12. "Релиз системы распознавания текста Tesseract 5.1"  +/
Сообщение от Анон111 (?), 03-Мрт-22, 14:05 
Google вроде достаточно крупная корпорация
Ответить | Правка | К родителю #5 | Наверх | Cообщить модератору

14. "Релиз системы распознавания текста Tesseract 5.1"  +/
Сообщение от psvemail (??), 04-Мрт-22, 23:05 
расскажите это openrefine

Ответить | Правка | Наверх | Cообщить модератору

13. "Релиз системы распознавания текста Tesseract 5.1"  +/
Сообщение от ааноним (?), 03-Мрт-22, 22:04 
Для винды есть сборка?
Ответить | Правка | Наверх | Cообщить модератору

15. "Релиз системы распознавания текста Tesseract 5.1"  +/
Сообщение от Jh (?), 05-Мрт-22, 04:42 
Есть. Есть даже GUI - VietOCR. В принципе можно пользоваться
Ответить | Правка | Наверх | Cообщить модератору

16. "Релиз системы распознавания текста Tesseract 5.1"  +/
Сообщение от DmA (??), 07-Мрт-22, 11:57 
А почему только 4 языка перечислены, а не 100?
Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Спонсоры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2022 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру