forum.opennet.ru - "Релиз системы распознавания текста Tesseract 5.3.4" (29)

"Релиз системы распознавания текста Tesseract 5.3.4"

Форум Разговоры, обсуждение новостей
Вариант для распечатки		Пред. тема \| След. тема
Изначальное сообщение		[ Отслеживать ]

"Релиз системы распознавания текста Tesseract 5.3.4"	+/–
Сообщение от opennews (??), 18-Янв-24, 20:25
Опубликован релиз системы оптического распознавания текста Tesseract 5.3.4, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0... Подробнее: https://www.opennet.ru/opennews/art.shtml?num=60457
Ответить \| Правка \| Cообщить модератору

Оглавление

Линуксу не хватает распознавания текстов уровня FineReader, Аноним (1), 20:25 , 18-Янв-24, (1) +10

Сейчас это любая нервно-сеть в инете сделает лучше, чем finereader, Аноним (2), 20:31 , 18-Янв-24, (2) –10

а тут ничего никому загружать не нужно, всё работает _оффлайн_ , Аноним (3), 20:42 , 18-Янв-24, (3) +7

Без обучения все равно результат плохой , Аноним (5), 20:45 , 18-Янв-24, (5)

Сразу видно, что ты не занимаешься распознаванием документов и не в курсе всех з, Аноним (1), 21:01 , 18-Янв-24, (8) +3

Ты что-ли занимаешься Или софт вместо тебя этим занимается , Аноним (2), 21:09 , 18-Янв-24, (9)

Недавно занимался распознаванием документа Потом уснул , Прадед (?), 09:28 , 20-Янв-24, (31)

Скрыто модератором, Аноним (-), 12:58 , 20-Янв-24, (32)

Еще с конца 90х юзал этот файнридер и альтернатив не видел Но последние 2 года , Матвей (??), 22:42 , 18-Янв-24, (14) +6

где скачать , onanim (?), 10:07 , 19-Янв-24, (19) +8

tesseract хорошо распознает Я его тестировал на сканах ксерокопий в 200взш кото, Jh (?), 20:16 , 19-Янв-24, (27)

не распознает А с фанридером лично у меня всегда были проблемы если результат н, Jh (?), 20:18 , 19-Янв-24, (28)
И еще есть гуй для этой утилиты - gimagereader Довольно неполохой, Jh (?), 20:30 , 19-Янв-24, (29)

Есть где сравнение с FineReader Я слышал китайцы делали но не смог найти инфы , robot228 (?), 20:42 , 18-Янв-24, (4) +1

Fraktur очень медленно распознаёт по сравнению с FR15 На порядки медленнее То е, Quad Romb (ok), 21:14 , 18-Янв-24, (10)

Ещё бы готовые модели расшарили, а то гугл зажал Те модели 10 летней давности н, Аноним (7), 20:46 , 18-Янв-24, (7) +1
Когда последний раз испытывал, это чудо не могло ничего от слова совсем Что-н, paulus (ok), 21:26 , 18-Янв-24, (11) +1

Могёт Если нет особо сложной вёрстки - даже вполне пристойно могёт Но очень-очен, Quad Romb (ok), 21:29 , 18-Янв-24, (12) +2
В кедовском Skanpage есть интеграция с тессерактом, на простых отсканированных д, Аноним (13), 22:38 , 18-Янв-24, (13) +2

Пока тессеракт не может распознавать в PDF и ODT с детекцией гарнитур, размеров,, Аноним (15), 22:49 , 18-Янв-24, (15) +1

После файнридера приводить текст к единому стилю 8212 то ещё удовольствие , Тот_Самый_Анонимус_ (?), 10:01 , 19-Янв-24, (18) +3

Самая важная и основная функция инструмента для распознавания картинок Лучше бы, Аноним (15), 22:52 , 18-Янв-24, (16) –1
Это все прекрасно А какие линуксовые программульки могут распозновать рукописны, Ильч (?), 10:44 , 19-Янв-24, (20)
Не понимаю чего с этим возятся, это же позор Уже давным давно появились более, Аноним (23), 13:44 , 19-Янв-24, (23)

Потому что это компактная, не привязанная ни к чему сишная либа, а не очередной , Аноним (24), 15:06 , 19-Янв-24, (24)

Онлайн-переводчики уже запретили , Бывалый смузихлёб (?), 15:54 , 19-Янв-24, (25) –2

Не запретили Как и выучить китайский Речь не о принципиальной невозможности, а, Аноним (24), 16:10 , 19-Янв-24, (26)

Ты даже не в теме Никакие куски питона там не нужны Я собирал на C и библиот, cat666 (ok), 21:22 , 19-Янв-24, (30) +1

Китайцы безусловно молодцы, факт Само-собой, нейронки нещадно нагибают классиче, Аноним (33), 15:25 , 20-Янв-24, (33) +1

Сообщения [Сортировка по времени | RSS]

1. "Релиз системы распознавания текста Tesseract 5.3.4" +10 +/–

Сообщение от Аноним (1), 18-Янв-24, 20:25

Линуксу не хватает распознавания текстов уровня FineReader

Ответить | Правка | Наверх | Cообщить модератору

2. "Релиз системы распознавания текста Tesseract 5.3.4" –10 +/–

Сообщение от Аноним (2), 18-Янв-24, 20:31

Сейчас это любая нервно-сеть в инете сделает лучше, чем finereader

Ответить | Правка | Наверх | Cообщить модератору

3. "Релиз системы распознавания текста Tesseract 5.3.4" +7 +/–

Сообщение от Аноним (3), 18-Янв-24, 20:42

> в инете
а тут ничего никому загружать не нужно, всё работает _оффлайн_.

Ответить | Правка | Наверх | Cообщить модератору

5. "Релиз системы распознавания текста Tesseract 5.3.4" +/–

Сообщение от Аноним (5), 18-Янв-24, 20:45

Без обучения все равно результат плохой.

Ответить | Правка | Наверх | Cообщить модератору

8. "Релиз системы распознавания текста Tesseract 5.3.4" +3 +/–

Сообщение от Аноним (1), 18-Янв-24, 21:01

Сразу видно, что ты не занимаешься распознаванием документов и не в курсе всех задач, которые присущи данной теме.

Ответить | Правка | К родителю #2 | Наверх | Cообщить модератору

9. "Релиз системы распознавания текста Tesseract 5.3.4" +/–

Сообщение от Аноним (2), 18-Янв-24, 21:09

Ты что-ли занимаешься? Или софт вместо тебя этим занимается?

Ответить | Правка | Наверх | Cообщить модератору

31. "Релиз системы распознавания текста Tesseract 5.3.4" +/–

Сообщение от Прадед (?), 20-Янв-24, 09:28

Недавно занимался распознаванием документа. Потом уснул..

Ответить | Правка | Наверх | Cообщить модератору

32. Скрыто модератором +/–

Сообщение от Аноним (-), 20-Янв-24, 12:58

> Недавно занимался распознаванием документа. Потом уснул..
Хреновая и неэффективная нейросеть. Заменить на робота.

Ответить | Правка | Наверх | Cообщить модератору

14. "Релиз системы распознавания текста Tesseract 5.3.4" +6 +/–

Сообщение от Матвей (??), 18-Янв-24, 22:42

Еще с конца 90х юзал этот файнридер и альтернатив не видел. Но последние 2 года только тессеракт. Мне пофиг, что оно консольное, зато распознает 100% русских текстов самых разных шрифтов и качеств, которые я ей скармливаю. С помощью тессеракта оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.

Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору

19. "Релиз системы распознавания текста Tesseract 5.3.4" +8 +/–

Сообщение от onanim (?), 19-Янв-24, 10:07

> оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.
где скачать?

Ответить | Правка | Наверх | Cообщить модератору

27. "Релиз системы распознавания текста Tesseract 5.3.4" +/–

Сообщение от Jh (?), 19-Янв-24, 20:16

tesseract хорошо распознает. Я его тестировал на сканах ксерокопий в 200взш которые нам присылали из больниц. В чем проблема, что он распознает таблицы.

Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору

28. "Релиз системы распознавания текста Tesseract 5.3.4" +/–

Сообщение от Jh (?), 19-Янв-24, 20:18

не распознает. А с фанридером лично у меня всегда были проблемы если результат надо было редактировать.

Ответить | Правка | Наверх | Cообщить модератору

29. "Релиз системы распознавания текста Tesseract 5.3.4" +/–

Сообщение от Jh (?), 19-Янв-24, 20:30

И еще есть гуй для этой утилиты - gimagereader. Довольно неполохой

Ответить | Правка | К родителю #27 | Наверх | Cообщить модератору

4. "Релиз системы распознавания текста Tesseract 5.3.4" +1 +/–

Сообщение от robot228 (?), 18-Янв-24, 20:42

Есть где сравнение с FineReader? Я слышал китайцы делали но не смог найти инфы.

Ответить | Правка | Наверх | Cообщить модератору

10. "Релиз системы распознавания текста Tesseract 5.3.4" +/–

Сообщение от Quad Romb (ok), 18-Янв-24, 21:14

Fraktur очень медленно распознаёт по сравнению с FR15.
На порядки медленнее. То есть от 200 до 400 раз медленнее.

Ответить | Правка | Наверх | Cообщить модератору

7. "Релиз системы распознавания текста Tesseract 5.3.4" +1 +/–

Сообщение от Аноним (7), 18-Янв-24, 20:46

Ещё бы готовые модели расшарили, а то гугл зажал. Те модели 10 летней давности не очень хорошие.

Ответить | Правка | Наверх | Cообщить модератору

11. "Релиз системы распознавания текста Tesseract 5.3.4" +1 +/–

Сообщение от paulus (ok), 18-Янв-24, 21:26

Когда последний раз испытывал, это чудо не могло ничего от слова совсем :( Что-нибудь в лучшую сторону изменилось?

Ответить | Правка | Наверх | Cообщить модератору

12. "Релиз системы распознавания текста Tesseract 5.3.4" +2 +/–

Сообщение от Quad Romb (ok), 18-Янв-24, 21:29

Могёт.
Если нет особо сложной вёрстки - даже вполне пристойно могёт.
Но очень-очень не спеша.
Для некоммерческого продукта, всё-таки, даёт весьма пристойный результат.

Ответить | Правка | Наверх | Cообщить модератору

13. "Релиз системы распознавания текста Tesseract 5.3.4" +2 +/–

Сообщение от Аноним (13), 18-Янв-24, 22:38

В кедовском Skanpage есть интеграция с тессерактом, на простых отсканированных документах и справках с год назад оно хорошо текст распознавало.

Ответить | Правка | К родителю #11 | Наверх | Cообщить модератору

15. "Релиз системы распознавания текста Tesseract 5.3.4" +1 +/–

Сообщение от Аноним (15), 18-Янв-24, 22:49

Пока тессеракт не может распознавать в PDF и ODT с детекцией гарнитур, размеров, таблиц, подчёркиваний, жирности, курсивности, структуры абзаца и прочими фичами Файн Ридер 20летней давности - он так и будет не нужен.

Ответить | Правка | Наверх | Cообщить модератору

18. "Релиз системы распознавания текста Tesseract 5.3.4" +3 +/–

Сообщение от Тот_Самый_Анонимус_ (?), 19-Янв-24, 10:01

После файнридера приводить текст к единому стилю — то ещё удовольствие.

Ответить | Правка | Наверх | Cообщить модератору

16. "Релиз системы распознавания текста Tesseract 5.3.4" –1 +/–

Сообщение от Аноним (15), 18-Янв-24, 22:52

> Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie.
Самая важная и основная функция инструмента для распознавания картинок! Лучше бы из stdin картинки брали, а курл или что там нужно мы сами уже подключим.

Ответить | Правка | Наверх | Cообщить модератору

20. "Релиз системы распознавания текста Tesseract 5.3.4" +/–

Сообщение от Ильч (?), 19-Янв-24, 10:44

Это все прекрасно. А какие линуксовые программульки могут распозновать рукописный текст?

Ответить | Правка | Наверх | Cообщить модератору

23. "Релиз системы распознавания текста Tesseract 5.3.4" +/–

Сообщение от Аноним (23), 19-Янв-24, 13:44

Не понимаю чего с "этим" возятся, это же позор. Уже давным давно появились более адекватные распознавалки со свободной лицензией и открытым кодом. Например PaddleOCR. А это надо закопать!

Ответить | Правка | Наверх | Cообщить модератору

24. "Релиз системы распознавания текста Tesseract 5.3.4" +/–

Сообщение от Аноним (24), 19-Янв-24, 15:06

Потому что это компактная, не привязанная ни к чему сишная либа, а не очередной кусок питонокода, требующий питоновую инфраструктуру и кучу пакетов для запуска.
Ещё два момента:
— В Tesseract тоже завезли нейронки
— PaddleOCR, как и сам фреймворк Paddle — китайский проект, основная масса документации, разработка и багтрекер тоже на китайском. Если языковой барьер не мешает, то пожалуйста.

Ответить | Правка | Наверх | Cообщить модератору

25. "Релиз системы распознавания текста Tesseract 5.3.4" –2 +/–

Сообщение от Бывалый смузихлёб (?), 19-Янв-24, 15:54

> Если языковой барьер не мешает, то пожалуйста.
Онлайн-переводчики уже запретили ?

Ответить | Правка | Наверх | Cообщить модератору

26. "Релиз системы распознавания текста Tesseract 5.3.4" +/–

Сообщение от Аноним (24), 19-Янв-24, 16:10

Не запретили. Как и выучить китайский. Речь не о принципиальной невозможности, а о дополнительном геморрое.

Ответить | Правка | Наверх | Cообщить модератору

30. "Релиз системы распознавания текста Tesseract 5.3.4" +1 +/–

Сообщение от cat666 (ok), 19-Янв-24, 21:22

Ты даже не в теме. Никакие куски питона там не нужны. Я собирал на C++ и библиотеку и программу распознавания. Всё остальное просто нервно курит в сторонке по качеству распознавания. Много документации на английском, для этого надо просто зайти на GitHub. Китайцы молодцы.

Ответить | Правка | К родителю #24 | Наверх | Cообщить модератору

33. "Релиз системы распознавания текста Tesseract 5.3.4" +1 +/–

Сообщение от Аноним (33), 20-Янв-24, 15:25

Китайцы безусловно молодцы, факт.
> Всё остальное просто нервно курит в сторонке по качеству распознавания.
Само-собой, нейронки нещадно нагибают классический подход.
> Я собирал на C++ и библиотеку и программу распознавания.
cpp_infer? Оно работало, но это скорее побочное демо. Основная софтина — это именно питона кусок.
> Много документации на английском
Какая–то есть. Актуальность и полноту по сравнению с китайской берёшься гарантировать? (спойлер: китайская полнее и актуальнее) Поиск по багтрекеру тоже возьмёшся организовать?
Штука не в том. PaddleOCR развивается, тестируется и поддерживается именно как датасатанистский проект с питоном во все поля. Не как сишная либа. Отдельные инициативы по запуску моделей на нативных рантаймах — это именно что демки и proof–of–concept. Без поддержки и гарантий актуализации. Самое ценное там — это компактные модели, но обвязку под них придётся допиливать самостоятельно.
В том и разница: Tesseract компактен, самодостаточен и почти без сторонних зависимостей (всё чтение форматов и обработка картинок вынесены в leptonica). А PaddleOCR — это нейронка, приклеенная к нагромождению third–party либ (один OpenCV чего стоит), и всё насквозь перемотанное синей изолентой. С огромным количеством «если», «может быть» и «— Е..нёт? — Не должно».

Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

1. "Релиз системы распознавания текста Tesseract 5.3.4"	+10 +/–
Сообщение от Аноним (1), 18-Янв-24, 20:25
Линуксу не хватает распознавания текстов уровня FineReader
Ответить \| Правка \| Наверх \| Cообщить модератору


	2. "Релиз системы распознавания текста Tesseract 5.3.4"	–10 +/–
	Сообщение от Аноним (2), 18-Янв-24, 20:31
	Сейчас это любая нервно-сеть в инете сделает лучше, чем finereader
	Ответить \| Правка \| Наверх \| Cообщить модератору


	3. "Релиз системы распознавания текста Tesseract 5.3.4"	+7 +/–
	Сообщение от Аноним (3), 18-Янв-24, 20:42
	> в инете а тут ничего никому загружать не нужно, всё работает _оффлайн_.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	5. "Релиз системы распознавания текста Tesseract 5.3.4"	+/–
	Сообщение от Аноним (5), 18-Янв-24, 20:45
	Без обучения все равно результат плохой.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	8. "Релиз системы распознавания текста Tesseract 5.3.4"	+3 +/–
	Сообщение от Аноним (1), 18-Янв-24, 21:01
	Сразу видно, что ты не занимаешься распознаванием документов и не в курсе всех задач, которые присущи данной теме.
	Ответить \| Правка \| К родителю #2 \| Наверх \| Cообщить модератору


	9. "Релиз системы распознавания текста Tesseract 5.3.4"	+/–
	Сообщение от Аноним (2), 18-Янв-24, 21:09
	Ты что-ли занимаешься? Или софт вместо тебя этим занимается?
	Ответить \| Правка \| Наверх \| Cообщить модератору


	31. "Релиз системы распознавания текста Tesseract 5.3.4"	+/–
	Сообщение от Прадед (?), 20-Янв-24, 09:28
	Недавно занимался распознаванием документа. Потом уснул..
	Ответить \| Правка \| Наверх \| Cообщить модератору


	32. Скрыто модератором	+/–
	Сообщение от Аноним (-), 20-Янв-24, 12:58
	> Недавно занимался распознаванием документа. Потом уснул.. Хреновая и неэффективная нейросеть. Заменить на робота.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	14. "Релиз системы распознавания текста Tesseract 5.3.4"	+6 +/–
	Сообщение от Матвей (??), 18-Янв-24, 22:42
	Еще с конца 90х юзал этот файнридер и альтернатив не видел. Но последние 2 года только тессеракт. Мне пофиг, что оно консольное, зато распознает 100% русских текстов самых разных шрифтов и качеств, которые я ей скармливаю. С помощью тессеракта оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.
	Ответить \| Правка \| К родителю #1 \| Наверх \| Cообщить модератору


	19. "Релиз системы распознавания текста Tesseract 5.3.4"	+8 +/–
	Сообщение от onanim (?), 19-Янв-24, 10:07
	> оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было. где скачать?
	Ответить \| Правка \| Наверх \| Cообщить модератору


	27. "Релиз системы распознавания текста Tesseract 5.3.4"	+/–
	Сообщение от Jh (?), 19-Янв-24, 20:16
	tesseract хорошо распознает. Я его тестировал на сканах ксерокопий в 200взш которые нам присылали из больниц. В чем проблема, что он распознает таблицы.
	Ответить \| Правка \| К родителю #1 \| Наверх \| Cообщить модератору


	28. "Релиз системы распознавания текста Tesseract 5.3.4"	+/–
	Сообщение от Jh (?), 19-Янв-24, 20:18
	не распознает. А с фанридером лично у меня всегда были проблемы если результат надо было редактировать.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	29. "Релиз системы распознавания текста Tesseract 5.3.4"	+/–
	Сообщение от Jh (?), 19-Янв-24, 20:30
	И еще есть гуй для этой утилиты - gimagereader. Довольно неполохой
	Ответить \| Правка \| К родителю #27 \| Наверх \| Cообщить модератору

4. "Релиз системы распознавания текста Tesseract 5.3.4"	+1 +/–
Сообщение от robot228 (?), 18-Янв-24, 20:42
Есть где сравнение с FineReader? Я слышал китайцы делали но не смог найти инфы.
Ответить \| Правка \| Наверх \| Cообщить модератору


	10. "Релиз системы распознавания текста Tesseract 5.3.4"	+/–
	Сообщение от Quad Romb (ok), 18-Янв-24, 21:14
	Fraktur очень медленно распознаёт по сравнению с FR15. На порядки медленнее. То есть от 200 до 400 раз медленнее.
	Ответить \| Правка \| Наверх \| Cообщить модератору

7. "Релиз системы распознавания текста Tesseract 5.3.4"	+1 +/–
Сообщение от Аноним (7), 18-Янв-24, 20:46
Ещё бы готовые модели расшарили, а то гугл зажал. Те модели 10 летней давности не очень хорошие.
Ответить \| Правка \| Наверх \| Cообщить модератору

11. "Релиз системы распознавания текста Tesseract 5.3.4"	+1 +/–
Сообщение от paulus (ok), 18-Янв-24, 21:26
Когда последний раз испытывал, это чудо не могло ничего от слова совсем :( Что-нибудь в лучшую сторону изменилось?
Ответить \| Правка \| Наверх \| Cообщить модератору


	12. "Релиз системы распознавания текста Tesseract 5.3.4"	+2 +/–
	Сообщение от Quad Romb (ok), 18-Янв-24, 21:29
	Могёт. Если нет особо сложной вёрстки - даже вполне пристойно могёт. Но очень-очень не спеша. Для некоммерческого продукта, всё-таки, даёт весьма пристойный результат.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	13. "Релиз системы распознавания текста Tesseract 5.3.4"	+2 +/–
	Сообщение от Аноним (13), 18-Янв-24, 22:38
	В кедовском Skanpage есть интеграция с тессерактом, на простых отсканированных документах и справках с год назад оно хорошо текст распознавало.
	Ответить \| Правка \| К родителю #11 \| Наверх \| Cообщить модератору

15. "Релиз системы распознавания текста Tesseract 5.3.4"	+1 +/–
Сообщение от Аноним (15), 18-Янв-24, 22:49
Пока тессеракт не может распознавать в PDF и ODT с детекцией гарнитур, размеров, таблиц, подчёркиваний, жирности, курсивности, структуры абзаца и прочими фичами Файн Ридер 20летней давности - он так и будет не нужен.
Ответить \| Правка \| Наверх \| Cообщить модератору


	18. "Релиз системы распознавания текста Tesseract 5.3.4"	+3 +/–
	Сообщение от Тот_Самый_Анонимус_ (?), 19-Янв-24, 10:01
	После файнридера приводить текст к единому стилю — то ещё удовольствие.
	Ответить \| Правка \| Наверх \| Cообщить модератору

16. "Релиз системы распознавания текста Tesseract 5.3.4"	–1 +/–
Сообщение от Аноним (15), 18-Янв-24, 22:52
> Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie. Самая важная и основная функция инструмента для распознавания картинок! Лучше бы из stdin картинки брали, а курл или что там нужно мы сами уже подключим.
Ответить \| Правка \| Наверх \| Cообщить модератору

20. "Релиз системы распознавания текста Tesseract 5.3.4"	+/–
Сообщение от Ильч (?), 19-Янв-24, 10:44
Это все прекрасно. А какие линуксовые программульки могут распозновать рукописный текст?
Ответить \| Правка \| Наверх \| Cообщить модератору

23. "Релиз системы распознавания текста Tesseract 5.3.4"	+/–
Сообщение от Аноним (23), 19-Янв-24, 13:44
Не понимаю чего с "этим" возятся, это же позор. Уже давным давно появились более адекватные распознавалки со свободной лицензией и открытым кодом. Например PaddleOCR. А это надо закопать!
Ответить \| Правка \| Наверх \| Cообщить модератору


	24. "Релиз системы распознавания текста Tesseract 5.3.4"	+/–
	Сообщение от Аноним (24), 19-Янв-24, 15:06
	Потому что это компактная, не привязанная ни к чему сишная либа, а не очередной кусок питонокода, требующий питоновую инфраструктуру и кучу пакетов для запуска. Ещё два момента: — В Tesseract тоже завезли нейронки — PaddleOCR, как и сам фреймворк Paddle — китайский проект, основная масса документации, разработка и багтрекер тоже на китайском. Если языковой барьер не мешает, то пожалуйста.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	25. "Релиз системы распознавания текста Tesseract 5.3.4"	–2 +/–
	Сообщение от Бывалый смузихлёб (?), 19-Янв-24, 15:54
	> Если языковой барьер не мешает, то пожалуйста. Онлайн-переводчики уже запретили ?
	Ответить \| Правка \| Наверх \| Cообщить модератору


	26. "Релиз системы распознавания текста Tesseract 5.3.4"	+/–
	Сообщение от Аноним (24), 19-Янв-24, 16:10
	Не запретили. Как и выучить китайский. Речь не о принципиальной невозможности, а о дополнительном геморрое.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	30. "Релиз системы распознавания текста Tesseract 5.3.4"	+1 +/–
	Сообщение от cat666 (ok), 19-Янв-24, 21:22
	Ты даже не в теме. Никакие куски питона там не нужны. Я собирал на C++ и библиотеку и программу распознавания. Всё остальное просто нервно курит в сторонке по качеству распознавания. Много документации на английском, для этого надо просто зайти на GitHub. Китайцы молодцы.
	Ответить \| Правка \| К родителю #24 \| Наверх \| Cообщить модератору


	33. "Релиз системы распознавания текста Tesseract 5.3.4"	+1 +/–
	Сообщение от Аноним (33), 20-Янв-24, 15:25
	Китайцы безусловно молодцы, факт. > Всё остальное просто нервно курит в сторонке по качеству распознавания. Само-собой, нейронки нещадно нагибают классический подход. > Я собирал на C++ и библиотеку и программу распознавания. cpp_infer? Оно работало, но это скорее побочное демо. Основная софтина — это именно питона кусок. > Много документации на английском Какая–то есть. Актуальность и полноту по сравнению с китайской берёшься гарантировать? (спойлер: китайская полнее и актуальнее) Поиск по багтрекеру тоже возьмёшся организовать? Штука не в том. PaddleOCR развивается, тестируется и поддерживается именно как датасатанистский проект с питоном во все поля. Не как сишная либа. Отдельные инициативы по запуску моделей на нативных рантаймах — это именно что демки и proof–of–concept. Без поддержки и гарантий актуализации. Самое ценное там — это компактные модели, но обвязку под них придётся допиливать самостоятельно. В том и разница: Tesseract компактен, самодостаточен и почти без сторонних зависимостей (всё чтение форматов и обработка картинок вынесены в leptonica). А PaddleOCR — это нейронка, приклеенная к нагромождению third–party либ (один OpenCV чего стоит), и всё насквозь перемотанное синей изолентой. С огромным количеством «если», «может быть» и «— Е..нёт? — Не должно».
	Ответить \| Правка \| Наверх \| Cообщить модератору