forum.opennet.ru - "Релиз системы распознавания текста Tesseract 5.1" (15)

"Релиз системы распознавания текста Tesseract 5.1"

Форум Разговоры, обсуждение новостей
Вариант для распечатки		Пред. тема \| След. тема
Изначальное сообщение		[ Отслеживать ]

"Релиз системы распознавания текста Tesseract 5.1"	+/–
Сообщение от opennews (??), 02-Мрт-22, 11:08
Опубликован релиз системы оптического распознавания текста Tesseract 5.1, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0... Подробнее: https://www.opennet.ru/opennews/art.shtml?num=56788
Ответить \| Правка \| Cообщить модератору

Оглавление

Использую Хороший проект Спасибо разработчикам , Аноним (2), 11:42 , 02-Мрт-22, (2) +6

Даёшь распознавание ятей 1122 для дореволюционного текста нужно, не рукам, Аноним (8), 22:34 , 02-Мрт-22, (8) +1

Поддерживаю С 1110 я м 1123 ра очень кстати , Гнъ Анонимъ (?), 00:54 , 03-Мрт-22, (9)

Право голубчикъ, чтож вы изволите такого писать , barmaley (??), 09:35 , 03-Мрт-22, (10) +1

Я самъ ничего, но много интересныхъ книгъ написано до насъ нашими великими предк, Гнъ Анонимъ (?), 12:49 , 03-Мрт-22, (11)

Пока не запилят восстановление стиля и структуры, с детекцией шрифтов, картинок,, Аноним (3), 12:55 , 02-Мрт-22, (3) –5

https github com tesseract-ocr tesseract blob main CONTRIBUTING mdА вообще и в, Аноним (6), 16:40 , 02-Мрт-22, (6) +3

Продвинутые ребята уже 7 лет как используют трансформеры , Аноним (3), 12:56 , 02-Мрт-22, (4)

У трансформеров есть неприятный недостаток - они требуют ОЧЕНЬ большого объёма о, iLex (ok), 16:27 , 02-Мрт-22, (5)

Трансформеры тренируют на неразмеченных данных Им нужна модель, понимающая стру, Аноним (3), 20:27 , 02-Мрт-22, (7)
Google вроде достаточно крупная корпорация, Анон111 (?), 14:05 , 03-Мрт-22, (12)

расскажите это openrefine, psv (??), 23:05 , 04-Мрт-22, (14)

Для винды есть сборка , ааноним (?), 22:04 , 03-Мрт-22, (13)

Есть Есть даже GUI - VietOCR В принципе можно пользоваться, Jh (?), 04:42 , 05-Мрт-22, (15)

А почему только 4 языка перечислены, а не 100 , DmA (??), 11:57 , 07-Мрт-22, (16)

Сообщения [Сортировка по времени | RSS]

2. "Релиз системы распознавания текста Tesseract 5.1" +6 +/–

Сообщение от Аноним (2), 02-Мрт-22, 11:42

Использую.
Хороший проект.
Спасибо разработчикам.

Ответить | Правка | Наверх | Cообщить модератору

8. "Релиз системы распознавания текста Tesseract 5.1" +1 +/–

Сообщение от Аноним (8), 02-Мрт-22, 22:34

Даёшь распознавание ятей(Ѣ)!! (для дореволюционного текста нужно, не руками же это всё править)

Ответить | Правка | Наверх | Cообщить модератору

9. "Релиз системы распознавания текста Tesseract 5.1" +/–

Сообщение от Гнъ Анонимъ (?), 03-Мрт-22, 00:54

Поддерживаю! Сія мѣра очень кстати!

Ответить | Правка | Наверх | Cообщить модератору

10. "Релиз системы распознавания текста Tesseract 5.1" +1 +/–

Сообщение от barmaley (??), 03-Мрт-22, 09:35

Право голубчикъ, чтож вы изволите такого писать?

Ответить | Правка | Наверх | Cообщить модератору

11. "Релиз системы распознавания текста Tesseract 5.1" +/–

Сообщение от Гнъ Анонимъ (?), 03-Мрт-22, 12:49

> Право голубчикъ, чтож вы изволите такого писать?
Я самъ ничего, но много интересныхъ книгъ написано до насъ нашими великими предками

Ответить | Правка | Наверх | Cообщить модератору

3. "Релиз системы распознавания текста Tesseract 5.1" –5 +/–

Сообщение от Аноним (3), 02-Мрт-22, 12:55

Пока не запилят восстановление стиля и структуры, с детекцией шрифтов, картинок, таблиц и т.д., с сохранением всей обнаруженной инфы, с возможностью для пользователя вмешиваться в процесс, как сделано в FineReader, так и будет бесполезной поделкой.

Ответить | Правка | Наверх | Cообщить модератору

6. "Релиз системы распознавания текста Tesseract 5.1" +3 +/–

Сообщение от Аноним (6), 02-Мрт-22, 16:40

https://github.com/tesseract-ocr/tesseract/blob/main/CONTRIB...
А вообще и в нынешнем виде он очень полезен: тот же OcrMyPDF, сделанный на его основе - отличная штука для случаев когда надо добавить текстовый слой к отсканированным печатным материалам - например, для удобного поиска по ним.

Ответить | Правка | Наверх | Cообщить модератору

4. "Релиз системы распознавания текста Tesseract 5.1" +/–

Сообщение от Аноним (3), 02-Мрт-22, 12:56

>на базе рекуррентной нейронной сети LSTM
Продвинутые ребята уже 7 лет как используют трансформеры.

Ответить | Правка | Наверх | Cообщить модератору

5. "Релиз системы распознавания текста Tesseract 5.1" +/–

Сообщение от iLex (ok), 02-Мрт-22, 16:27

У трансформеров есть неприятный недостаток - они требуют ОЧЕНЬ большого объёма обучающей выборки, чтобы механизм Multi-head attention нормально работал. Подозреваю, у разработчиков Tesseract попросту нет ресурсов, чтоб вручную разметить нужные объёмы. Так что трансформеры - это игрушка крупных корпораций.
А на малых выборках LSTM'ки кроют трансформеры по полной.

Ответить | Правка | Наверх | Cообщить модератору

7. "Релиз системы распознавания текста Tesseract 5.1" +/–

Сообщение от Аноним (3), 02-Мрт-22, 20:27

>Подозреваю, у разработчиков Tesseract попросту нет ресурсов, чтоб вручную разметить нужные объёмы
Трансформеры тренируют на неразмеченных данных. Им нужна модель, понимающая структуру текста, к которой можно приделать распознающую модель, чтобы предсказывать распределение вероятностей для символа при заданной картинке. Для этого разметка не нужна. Нужна модель трансформер на чистом тексте (входы и выходы - 1-hot) + модель-распознавалка, выдающая распределение вероятностей для символа. Веса трансформера для начала можно и нужно заморозить.

Ответить | Правка | Наверх | Cообщить модератору

12. "Релиз системы распознавания текста Tesseract 5.1" +/–

Сообщение от Анон111 (?), 03-Мрт-22, 14:05

Google вроде достаточно крупная корпорация

Ответить | Правка | К родителю #5 | Наверх | Cообщить модератору

14. "Релиз системы распознавания текста Tesseract 5.1" +/–

Сообщение от psv (??), 04-Мрт-22, 23:05

расскажите это openrefine

Ответить | Правка | Наверх | Cообщить модератору

13. "Релиз системы распознавания текста Tesseract 5.1" +/–

Сообщение от ааноним (?), 03-Мрт-22, 22:04

Для винды есть сборка?

Ответить | Правка | Наверх | Cообщить модератору

15. "Релиз системы распознавания текста Tesseract 5.1" +/–

Сообщение от Jh (?), 05-Мрт-22, 04:42

Есть. Есть даже GUI - VietOCR. В принципе можно пользоваться

Ответить | Правка | Наверх | Cообщить модератору

16. "Релиз системы распознавания текста Tesseract 5.1" +/–

Сообщение от DmA (??), 07-Мрт-22, 11:57

А почему только 4 языка перечислены, а не 100?

Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

2. "Релиз системы распознавания текста Tesseract 5.1"	+6 +/–
Сообщение от Аноним (2), 02-Мрт-22, 11:42
Использую. Хороший проект. Спасибо разработчикам.
Ответить \| Правка \| Наверх \| Cообщить модератору


	8. "Релиз системы распознавания текста Tesseract 5.1"	+1 +/–
	Сообщение от Аноним (8), 02-Мрт-22, 22:34
	Даёшь распознавание ятей(Ѣ)!! (для дореволюционного текста нужно, не руками же это всё править)
	Ответить \| Правка \| Наверх \| Cообщить модератору


	9. "Релиз системы распознавания текста Tesseract 5.1"	+/–
	Сообщение от Гнъ Анонимъ (?), 03-Мрт-22, 00:54
	Поддерживаю! Сія мѣра очень кстати!
	Ответить \| Правка \| Наверх \| Cообщить модератору


	10. "Релиз системы распознавания текста Tesseract 5.1"	+1 +/–
	Сообщение от barmaley (??), 03-Мрт-22, 09:35
	Право голубчикъ, чтож вы изволите такого писать?
	Ответить \| Правка \| Наверх \| Cообщить модератору


	11. "Релиз системы распознавания текста Tesseract 5.1"	+/–
	Сообщение от Гнъ Анонимъ (?), 03-Мрт-22, 12:49
	> Право голубчикъ, чтож вы изволите такого писать? Я самъ ничего, но много интересныхъ книгъ написано до насъ нашими великими предками
	Ответить \| Правка \| Наверх \| Cообщить модератору

3. "Релиз системы распознавания текста Tesseract 5.1"	–5 +/–
Сообщение от Аноним (3), 02-Мрт-22, 12:55
Пока не запилят восстановление стиля и структуры, с детекцией шрифтов, картинок, таблиц и т.д., с сохранением всей обнаруженной инфы, с возможностью для пользователя вмешиваться в процесс, как сделано в FineReader, так и будет бесполезной поделкой.
Ответить \| Правка \| Наверх \| Cообщить модератору


	6. "Релиз системы распознавания текста Tesseract 5.1"	+3 +/–
	Сообщение от Аноним (6), 02-Мрт-22, 16:40
	https://github.com/tesseract-ocr/tesseract/blob/main/CONTRIB... А вообще и в нынешнем виде он очень полезен: тот же OcrMyPDF, сделанный на его основе - отличная штука для случаев когда надо добавить текстовый слой к отсканированным печатным материалам - например, для удобного поиска по ним.
	Ответить \| Правка \| Наверх \| Cообщить модератору

4. "Релиз системы распознавания текста Tesseract 5.1"	+/–
Сообщение от Аноним (3), 02-Мрт-22, 12:56
>на базе рекуррентной нейронной сети LSTM Продвинутые ребята уже 7 лет как используют трансформеры.
Ответить \| Правка \| Наверх \| Cообщить модератору


	5. "Релиз системы распознавания текста Tesseract 5.1"	+/–
	Сообщение от iLex (ok), 02-Мрт-22, 16:27
	У трансформеров есть неприятный недостаток - они требуют ОЧЕНЬ большого объёма обучающей выборки, чтобы механизм Multi-head attention нормально работал. Подозреваю, у разработчиков Tesseract попросту нет ресурсов, чтоб вручную разметить нужные объёмы. Так что трансформеры - это игрушка крупных корпораций. А на малых выборках LSTM'ки кроют трансформеры по полной.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	7. "Релиз системы распознавания текста Tesseract 5.1"	+/–
	Сообщение от Аноним (3), 02-Мрт-22, 20:27
	>Подозреваю, у разработчиков Tesseract попросту нет ресурсов, чтоб вручную разметить нужные объёмы Трансформеры тренируют на неразмеченных данных. Им нужна модель, понимающая структуру текста, к которой можно приделать распознающую модель, чтобы предсказывать распределение вероятностей для символа при заданной картинке. Для этого разметка не нужна. Нужна модель трансформер на чистом тексте (входы и выходы - 1-hot) + модель-распознавалка, выдающая распределение вероятностей для символа. Веса трансформера для начала можно и нужно заморозить.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	12. "Релиз системы распознавания текста Tesseract 5.1"	+/–
	Сообщение от Анон111 (?), 03-Мрт-22, 14:05
	Google вроде достаточно крупная корпорация
	Ответить \| Правка \| К родителю #5 \| Наверх \| Cообщить модератору


	14. "Релиз системы распознавания текста Tesseract 5.1"	+/–
	Сообщение от psv (??), 04-Мрт-22, 23:05
	расскажите это openrefine
	Ответить \| Правка \| Наверх \| Cообщить модератору

13. "Релиз системы распознавания текста Tesseract 5.1"	+/–
Сообщение от ааноним (?), 03-Мрт-22, 22:04
Для винды есть сборка?
Ответить \| Правка \| Наверх \| Cообщить модератору


	15. "Релиз системы распознавания текста Tesseract 5.1"	+/–
	Сообщение от Jh (?), 05-Мрт-22, 04:42
	Есть. Есть даже GUI - VietOCR. В принципе можно пользоваться
	Ответить \| Правка \| Наверх \| Cообщить модератору

16. "Релиз системы распознавания текста Tesseract 5.1"	+/–
Сообщение от DmA (??), 07-Мрт-22, 11:57
А почему только 4 языка перечислены, а не 100?
Ответить \| Правка \| Наверх \| Cообщить модератору