forum.opennet.ru - "Релиз системы распознавания текста Tesseract 4.0" (63)

"Релиз системы распознавания текста Tesseract 4.0"

Форум Разговоры, обсуждение новостей
Вариант для распечатки		Пред. тема \| След. тема
Изначальное сообщение		[ Отслеживать ]

"Релиз системы распознавания текста Tesseract 4.0"	+/–
Сообщение от opennews (??), 01-Ноя-18, 00:15
Опубликован (https://groups.google.com/forum/#!topic/tesseract-ocr/DgJDXg...) релиз системы оптического распознавания текста Tesseract 4.0 (https://github.com/tesseract-ocr/tesseract/), поддерживающей распознавания документов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML, PDF и TSV. Изначально система была создана в 1985-1995 годы в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются (https://github.com/tesseract-ocr/tesseract) под лицензий Apache 2.0. Основные улучшения (https://github.com/tesseract-ocr/tesseract/wiki/ReleaseNotes...) в Tesseract 4.0: - Новый движок распознавания, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM (https://ru.wikipedia.org/wiki/%D0%94%D0%...), оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Старый движок, распознающий текст на уровне шаблонов отдельных символов, продолжает поставляться в качестве опции. Альтернативный движок Cube удалён из кодовой базы; - Добавлены сопутствующие новому OCR-движку утилиты для тренировки модели машинного обучения. Готовые натренированные модели опубликованы для 123 языков (https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#u...); - Для нового движка распознавания подготовлены модули для оптимизации производительности при помощи OpenMP и SIMD-инструкций AVX2, AVX или SSE4.1; - Осуществлён переход к нумерации версий в соответствии со спецификацией "Cемантическое версионирование (https://semver.org/)", подразумевающей использование нотации X.Y.Z (вместо ранее используемой W.X.Y.Z), в которой X меняется при внесении изменений, нарушающих обратную совместимость, Y меняется при расширении функциональности и Z при исправлении ошибок. - Обновлена сборочная система. Для сборки теперь требуется компилятор с поддержкой C++ 11. Добавлены unit-тесты. Добавлен режим сборки без старого движка распознавания. Выполнена реогранизация дерева исходных текстов. Проведена чистка устаревшего кода; - Улучшена обработка многостраничных TIFF-изображений; - Улучшен экспорт в PDF. URL: https://groups.google.com/forum/#!topic/tesseract-ocr/DgJDXg... Новость: https://www.opennet.ru/opennews/art.shtml?num=49534
Ответить \| Правка \| Cообщить модератору

Оглавление

Релиз системы распознавания текста Tesseract 4.0, Аноним (5), 02:32 , 01-Ноя-18, (5) –4

Релиз системы распознавания текста Tesseract 4.0, Аноним (-), 03:03 , 01-Ноя-18, (9) +1

Релиз системы распознавания текста Tesseract 4.0, Аноним (27), 09:58 , 01-Ноя-18, (27) –3

Релиз системы распознавания текста Tesseract 4.0, h31 (ok), 15:27 , 01-Ноя-18, (46) –1
Релиз системы распознавания текста Tesseract 4.0, Аноним (-), 15:53 , 01-Ноя-18, (49) –1
Релиз системы распознавания текста Tesseract 4.0, Аноним (56), 21:51 , 01-Ноя-18, (56) +4

Релиз системы распознавания текста Tesseract 4.0, Аноним (59), 08:03 , 02-Ноя-18, (59) –3

Релиз системы распознавания текста Tesseract 4.0, lg (?), 08:42 , 02-Ноя-18, (60)
Релиз системы распознавания текста Tesseract 4.0, iPony (?), 11:20 , 02-Ноя-18, (63) –2

Релиз системы распознавания текста Tesseract 4.0, neit95 (ok), 18:48 , 04-Ноя-18, (75)

Релиз системы распознавания текста Tesseract 4.0, Аноним (64), 11:38 , 02-Ноя-18, (64)

Релиз системы распознавания текста Tesseract 4.0, asdasd (?), 20:37 , 03-Ноя-18, (74)

Релиз системы распознавания текста Tesseract 4.0, scorry (ok), 12:46 , 16-Ноя-18, (78)

Релиз системы распознавания текста Tesseract 4.0, Аноним (65), 13:47 , 02-Ноя-18, (65)

Релиз системы распознавания текста Tesseract 4.0, Аноним (5), 02:33 , 01-Ноя-18, (6) –1

Релиз системы распознавания текста Tesseract 4.0, Онаним (?), 12:52 , 01-Ноя-18, (38)

Релиз системы распознавания текста Tesseract 4.0, Аноним (5), 02:43 , 01-Ноя-18, (7)

Релиз системы распознавания текста Tesseract 4.0, mikhailnov (ok), 08:10 , 01-Ноя-18, (22)

Релиз системы распознавания текста Tesseract 4.0, Аноним (50), 16:31 , 01-Ноя-18, (50)

Релиз системы распознавания текста Tesseract 4.0, Аноним (5), 02:58 , 01-Ноя-18, (8) –2

Релиз системы распознавания текста Tesseract 4.0, Shevchuk (ok), 05:25 , 01-Ноя-18, (11) +7

Релиз системы распознавания текста Tesseract 4.0, Аноним (26), 09:40 , 01-Ноя-18, (26) +1

Релиз системы распознавания текста Tesseract 4.0, Atterratio (ok), 11:32 , 01-Ноя-18, (34) +1
Релиз системы распознавания текста Tesseract 4.0, h31 (ok), 15:30 , 01-Ноя-18, (47)

Релиз системы распознавания текста Tesseract 4.0, lg (?), 08:44 , 02-Ноя-18, (61) –2

Релиз системы распознавания текста Tesseract 4.0, fske (?), 11:52 , 01-Ноя-18, (36)

Релиз системы распознавания текста Tesseract 4.0, Shevchuk (ok), 14:59 , 01-Ноя-18, (44)

Релиз системы распознавания текста Tesseract 4.0, kknight (ok), 12:13 , 01-Ноя-18, (37) +1

Релиз системы распознавания текста Tesseract 4.0, Shevchuk (ok), 14:52 , 01-Ноя-18, (41)

Релиз системы распознавания текста Tesseract 4.0, Аноним (42), 14:53 , 01-Ноя-18, (42)

Релиз системы распознавания текста Tesseract 4.0, Shevchuk (ok), 15:17 , 01-Ноя-18, (45)

Релиз системы распознавания текста Tesseract 4.0, Аноним (42), 16:54 , 02-Ноя-18, (66)

Релиз системы распознавания текста Tesseract 4.0, Ю.Т. (?), 22:13 , 02-Ноя-18, (68) –1
Релиз системы распознавания текста Tesseract 4.0, GenuZ (?), 15:56 , 15-Ноя-18, (77)

Релиз системы распознавания текста Tesseract 4.0, Led (ok), 00:40 , 03-Ноя-18, (71) +4

Релиз системы распознавания текста Tesseract 4.0, Аноним (42), 13:37 , 07-Ноя-18, (76) –2

Релиз системы распознавания текста Tesseract 4.0, Ю.Т. (?), 07:27 , 01-Ноя-18, (18) –1

Релиз системы распознавания текста Tesseract 4.0, iPony (?), 04:16 , 01-Ноя-18, (10) –2

Релиз системы распознавания текста Tesseract 4.0, Shevchuk (ok), 05:26 , 01-Ноя-18, (12)

Релиз системы распознавания текста Tesseract 4.0, Аноним (14), 06:49 , 01-Ноя-18, (14) –1

Релиз системы распознавания текста Tesseract 4.0, ryoken (ok), 06:58 , 01-Ноя-18, (15) +6

Релиз системы распознавания текста Tesseract 4.0, Qwerty (??), 09:25 , 01-Ноя-18, (24) –1

Релиз системы распознавания текста Tesseract 4.0, Клыкастый (ok), 12:55 , 01-Ноя-18, (39) –1
Релиз системы распознавания текста Tesseract 4.0, lg (?), 08:48 , 02-Ноя-18, (62) –1

Релиз системы распознавания текста Tesseract 4.0, Аноним (19), 07:52 , 01-Ноя-18, (19)
Релиз системы распознавания текста Tesseract 4.0, mikhailnov (ok), 08:09 , 01-Ноя-18, (21)

Релиз системы распознавания текста Tesseract 4.0, ryoken (ok), 06:59 , 01-Ноя-18, (16) –1

Релиз системы распознавания текста Tesseract 4.0, Аноним (25), 09:31 , 01-Ноя-18, (25) +4
Релиз системы распознавания текста Tesseract 4.0, meequz (ok), 10:31 , 01-Ноя-18, (30)
Релиз системы распознавания текста Tesseract 4.0, Аноним (33), 10:58 , 01-Ноя-18, (33)

Релиз системы распознавания текста Tesseract 4.0, Аноним (28), 10:07 , 01-Ноя-18, (28) +3

Релиз системы распознавания текста Tesseract 4.0, Аноним (33), 10:56 , 01-Ноя-18, (32) –1

Релиз системы распознавания текста Tesseract 4.0, Аноним (27), 10:13 , 01-Ноя-18, (29) –1

Релиз системы распознавания текста Tesseract 4.0, Клыкастый (ok), 12:58 , 01-Ноя-18, (40) +3

Релиз системы распознавания текста Tesseract 4.0, Аноним (42), 14:55 , 01-Ноя-18, (43) –1

Релиз системы распознавания текста Tesseract 4.0, Shevchuk (ok), 15:34 , 01-Ноя-18, (48) +1
Релиз системы распознавания текста Tesseract 4.0, zeronet (ok), 18:53 , 01-Ноя-18, (51)

Релиз системы распознавания текста Tesseract 4.0, Кккк (?), 20:18 , 02-Ноя-18, (67) –1

Релиз системы распознавания текста Tesseract 4.0, lol (??), 19:53 , 01-Ноя-18, (52) –1

Релиз системы распознавания текста Tesseract 4.0, Аноним (54), 20:03 , 01-Ноя-18, (54) –1
Релиз системы распознавания текста Tesseract 4.0, Ю.Т. (?), 21:57 , 01-Ноя-18, (57) –1
Релиз системы распознавания текста Tesseract 4.0, t_cirkla (?), 00:51 , 19-Дек-18, (79)

Релиз системы распознавания текста Tesseract 4.0, werter (??), 18:45 , 03-Ноя-18, (73)

Сообщения по теме [Сортировка по времени | RSS]

5. "Релиз системы распознавания текста Tesseract 4.0" –4 +/–

Сообщение от Аноним (5), 01-Ноя-18, 02:32

Версия для Windows есть?

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

9. "Релиз системы распознавания текста Tesseract 4.0" +1 +/–

Сообщение от Аноним (-), 01-Ноя-18, 03:03

Внезапно, да -> https://github.com/UB-Mannheim/tesseract/wiki
Мог бы и сам скомпилить, или не виндавз-вэй?

Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

27. "Релиз системы распознавания текста Tesseract 4.0" –3 +/–

Сообщение от Аноним (27), 01-Ноя-18, 09:58

Версия 4.0.0.20181030 на Windows XP установилась, но не работает. Справка не запускается. Пишет msvcrt.dll точка входа в процедуру не найдена. В версии 3.05.02-20180621 справка запустилась.

Ответить | Правка | ^ к родителю #9 | Наверх | Cообщить модератору

46. "Релиз системы распознавания текста Tesseract 4.0" –1 +/–

Сообщение от h31 (ok), 01-Ноя-18, 15:27

Скорее всего собрано новыми версиями вижуал студии, где выбросили поддержку WinXP. У меня подобная ошибка повально встречалась на WinXP SP2, потому что в какой-то момент эту версию задепрекейтили в компиляторе. Но даже с SP3 сейчас очень много софта не будет запускаться.

Ответить | Правка | ^ к родителю #27 | Наверх | Cообщить модератору

49. "Релиз системы распознавания текста Tesseract 4.0" –1 +/–

Сообщение от Аноним (-), 01-Ноя-18, 15:53

> msvcrt.dll
Вангую, в системе отсутствует c++ redistributable runtime, скорее всего 2017. Скачать можно отсюда https://visualstudio.microsoft.com/downloads/ , но не факт, что на ХРю установится.

Ответить | Правка | ^ к родителю #27 | Наверх | Cообщить модератору

56. "Релиз системы распознавания текста Tesseract 4.0" +4 +/–

Сообщение от Аноним (56), 01-Ноя-18, 21:51

>Версия 4.0.0.20181030 на Windows XP установилась, но не работает.
Так бывает, когда используешь ОС 17-летней давности. Ты бы ещё на Red Hat Linux 7 (не путать с RHEL) попытался поставить.

Ответить | Правка | ^ к родителю #27 | Наверх | Cообщить модератору

59. "Релиз системы распознавания текста Tesseract 4.0" –3 +/–

Сообщение от Аноним (59), 02-Ноя-18, 08:03

> Так бывает, когда используешь ОС 17-летней давности.
Да так бывает. Но не совсем согласен с Вами.
Windows XP без сервис паков и обновлений не поддерживала USB - это система как раз 17-летней давности. Но система развивалась и её поддержку прекратили 8 апреля 2014, так-что ей не 17 лет а меньше. Кроме того есть родственные версии Windows XP, которые поддерживаются до сих пор, например Windows Embedded.
Windows XP попросту уничтожают.
Я не отрицаю, что в более поздних версиях Windows нет ничего нового, хорошего, нужного, полезного, удобного, есть встроенная поддержка прозрачных тем.

Ответить | Правка | ^ к родителю #56 | Наверх | Cообщить модератору

60. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от lg (?), 02-Ноя-18, 08:42

>>есть встроенная поддержка прозрачных тем.
уже нет =)

Ответить | Правка | ^ к родителю #59 | Наверх | Cообщить модератору

63. "Релиз системы распознавания текста Tesseract 4.0" –2 +/–

Сообщение от iPony (?), 02-Ноя-18, 11:20

> Windows XP без сервис паков и обновлений не поддерживала USB
Обман. Не поддерживала USB 2.0. А USB вполне.
А так всё равно- 17 летняя ОС по архитектуре.

Ответить | Правка | ^ к родителю #59 | Наверх | Cообщить модератору

75. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от neit95 (ok), 04-Ноя-18, 18:48

По архитектуре она Windows NT, как и более современные Windows'ы.

Ответить | Правка | ^ к родителю #63 | Наверх | Cообщить модератору

64. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от Аноним (64), 02-Ноя-18, 11:38

>Windows XP попросту уничтожают
Да-да, это всё заговор!
>в более поздних версиях Windows нет ничего нового, хорошего, нужного, полезного, удобного
Улучшение безопасности, более-менее адекватный сэндбоксинг приложений, вынос многих драйверов в юзерспейс. Ничего полезного, да.

Ответить | Правка | ^ к родителю #59 | Наверх | Cообщить модератору

74. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от asdasd (?), 03-Ноя-18, 20:37

А заодно более убогие элеваторы процессов, I/O, неадекватный расход оперативки ни на что и неадекватное количество занимаемого места на винчестере.

Ответить | Правка | ^ к родителю #64 | Наверх | Cообщить модератору

78. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от scorry (ok), 16-Ноя-18, 12:46

Помню, как ко мне зашёл клиент и увидел на компе приглашение мс-дос 6.2 или 6.22 — не упомню. Резво попросил записать ему бут-дискетку. Потом жаловался, мол, гадость эта ваша новая дос, не хватает на дискете места под это, под то и во-о-н под то. А 3.3 — в самый раз, и ещё игрушка-бильярд помещается. Или покер. Снова жеж не упомню. Дискеты-то не мои были.

Ответить | Правка | ^ к родителю #74 | Наверх | Cообщить модератору

65. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от Аноним (65), 02-Ноя-18, 13:47

USB винда поддерживает ещё с Windows 95 OSR2, для которой мелкомягкие специальную обнову выпустили. В Win98 и после неё - из коробки.

Ответить | Правка | ^ к родителю #59 | Наверх | Cообщить модератору

6. "Релиз системы распознавания текста Tesseract 4.0" –1 +/–

Сообщение от Аноним (5), 01-Ноя-18, 02:33

К новости не хватает скрееншотов.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

38. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от Онаним (?), 01-Ноя-18, 12:52

Это чисто движок вроде, либа, интерфейс сделай сам.

Ответить | Правка | ^ к родителю #6 | Наверх | Cообщить модератору

7. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от Аноним (5), 01-Ноя-18, 02:43

> Результат может сохраняться как открытым текстом, так и в форматах HTML, PDF и TSV.
Недостаточно поддерживаемых форматов, ещё нужно хотя-бы *.odt,, *.rtf *.doc...

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

22. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от mikhailnov (ok), 01-Ноя-18, 08:10

От этого мало толку, т.к. нет нормального сохранения исходного форматирования текста.

Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

50. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от Аноним (50), 01-Ноя-18, 16:31

А чем плох hOCR?

Ответить | Правка | ^ к родителю #22 | Наверх | Cообщить модератору

8. "Релиз системы распознавания текста Tesseract 4.0" –2 +/–

Сообщение от Аноним (5), 01-Ноя-18, 02:58

Tesseract 4.0 может распознавать текст на скрееншотах окошек программ, веб-страниц и т.п.?

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

11. "Релиз системы распознавания текста Tesseract 4.0" +7 +/–

Сообщение от Shevchuk (ok), 01-Ноя-18, 05:25

https://i.imgur.com/uxab5b7.png

Ответить | Правка | ^ к родителю #8 | Наверх | Cообщить модератору

26. "Релиз системы распознавания текста Tesseract 4.0" +1 +/–

Сообщение от Аноним (26), 01-Ноя-18, 09:40

Нормальный, конечно, результат, но такой чистый текст можно бы и получше распознавать. Бросаются в глаза на ровном месте съеденные пробелы, кривое определение совершенно нормальных букв. Возможно, на русском языке мало натренировали, но для сканов, например, я бы это пока не использовал.

Ответить | Правка | ^ к родителю #11 | Наверх | Cообщить модератору

34. "Релиз системы распознавания текста Tesseract 4.0" +1 +/–

Сообщение от Atterratio (ok), 01-Ноя-18, 11:32

Я работал со старой версией программы, ей можно скармливать данные, и распознавание значительно улучшится.

Ответить | Правка | ^ к родителю #26 | Наверх | Cообщить модератору

47. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от h31 (ok), 01-Ноя-18, 15:30

Программы распознавания обычно затачивают под отсканированные изображения, где разрешение под 600 DPI. На обычном экране, где мало того, что всего лишь 96 DPI, да ещё и радуга из-за сглаживания, работать это будет плохо.

Ответить | Правка | ^ к родителю #26 | Наверх | Cообщить модератору

61. "Релиз системы распознавания текста Tesseract 4.0" –2 +/–

Сообщение от lg (?), 02-Ноя-18, 08:44

с экрана боде тработать идеально, просто не адаптирована система. Символы пиксель в пиксель совпадают при одинаковом шрифте кегле и разрешении.

Ответить | Правка | ^ к родителю #47 | Наверх | Cообщить модератору

36. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от fske (?), 01-Ноя-18, 11:52

это у вас меню в заголовке окна?

Ответить | Правка | ^ к родителю #11 | Наверх | Cообщить модератору

44. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от Shevchuk (ok), 01-Ноя-18, 14:59

Да. Не то чтобы я большой любитель CSD, правда, скорее наоборот. Просто если уж оно впилено в приложение, результат принудительного отключения выглядит ещё хуже.

Ответить | Правка | ^ к родителю #36 | Наверх | Cообщить модератору

37. "Релиз системы распознавания текста Tesseract 4.0" +1 +/–

Сообщение от kknight (ok), 01-Ноя-18, 12:13

у gImageReader есть нормальный Qt-интерфейс, вообще-то.

Ответить | Правка | ^ к родителю #11 | Наверх | Cообщить модератору

41. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от Shevchuk (ok), 01-Ноя-18, 14:52

О, спасибо, не знал. В репах Debian и Ubuntu только GTK*, и пользуюсь я им настолько редко, что добавлять PPA ради этого, конечно, не буду : )
* Обсуждение добавления Qt версии: https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=891414

Ответить | Правка | ^ к родителю #37 | Наверх | Cообщить модератору

42. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от Аноним (42), 01-Ноя-18, 14:53

А смесь русского и английского он умеет распознавать? Или "Немек Раскаага" неизбежен?

Ответить | Правка | ^ к родителю #11 | Наверх | Cообщить модератору

45. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от Shevchuk (ok), 01-Ноя-18, 15:17

Вообще да (и это было включено, см. кнопку "Распознать всё rus + eng" в заголовке окна), но в данном случае отработало оно на английских словах слабенько. Повторюсь, что запускаю я его крайне редко, и здесь никаких вообще приготовлений или настроек не делал: просто вставил скрин и распознал. Наверное, если её покормить данными, как выше пишет Atterratio, ситуация может улучшиться, но из коробки вот так.

Ответить | Правка | ^ к родителю #42 | Наверх | Cообщить модератору

66. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от Аноним (42), 02-Ноя-18, 16:54

FineReader 4 (с другими не работал почти) умел объединять языки в любых комбинациях. И распознавало нормально. В чём проблема для Тессеракта? (Вопрос не риторический, серьёзно хочу понять, какие есть принципиальные отличия.)
Раз уж речь об ФР, умеет ли Тессеракт руководствоваться при распознавании системами проверки орфографии и грамматики? То есть из нескольких вариантов выбирать слово, проходящее проверку Hunspell и LanguageTool?

Ответить | Правка | ^ к родителю #45 | Наверх | Cообщить модератору

68. "Релиз системы распознавания текста Tesseract 4.0" –1 +/–

Сообщение от Ю.Т. (?), 02-Ноя-18, 22:13

> FineReader 4 (с другими не работал почти) умел объединять языки в любых
> комбинациях. И распознавало нормально. В чём проблема для Тессеракта? (Вопрос не
> риторический, серьёзно хочу понять, какие есть принципиальные отличия.)
Давно я очень работал с ФР, но помню, что и он путался в многоязычном тексте. Тессеракт умеет обрабатывать многоязычный, но сбивается в случаях слов, допускающих разл. толкования. Делу помогло бы наличие словарной проверки (о которой далее была речь) или, скажем, произвольного указания стат. весов для выбора в таких случаях, но этого то ли нет, то ли готового нет.
А вообще Тессеракт 4-й серии это приятнейшее открытие в СПО последних двух с лишним лет. Изрядно помогает в работе.

Ответить | Правка | ^ к родителю #66 | Наверх | Cообщить модератору

77. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от GenuZ (?), 15-Ноя-18, 15:56

Последние несколько файнридеров распознают на странице то, чего там нет. Находят дефекты бумаги, дырки от дыроколов, мелкую рукописную пометку, подчёркивание и прочее. И всё это пытается обратить в печатный текст.
И хрен бы с ним, что получается плохо - он делает это в виде "надписей" (читай фрейма с текстом, поверх основного текста). Или они начинают пытаться повторять форматирование 1 в 1. Но получается половина текста в заголовке так, половина эдак. Текст нормально распознаёт, но начинает выдумывать форматирование.
Это всё черррртовски сложно потом удаляется, форматируется, приводится в состояние plain-text (так как смешивается текст с мусором) и т.д.
Так что я с нетерпением жду, когда тессеракт станет чуточку лучше в мелочах, ибо основной свой функционал он уже умеет достаточно неплохо. Проблема больше даже во внешних gui, которые пор юзабилити надо бы допилить немного.

Ответить | Правка | ^ к родителю #66 | Наверх | Cообщить модератору

71. "Релиз системы распознавания текста Tesseract 4.0" +4 +/–

Сообщение от Led (ok), 03-Ноя-18, 00:40

> смесь русского и английского
Это как - английский со скрепами?

Ответить | Правка | ^ к родителю #42 | Наверх | Cообщить модератору

76. "Релиз системы распознавания текста Tesseract 4.0" –2 +/–

Сообщение от Аноним (42), 07-Ноя-18, 13:37

Это как на скриншоте выше по дереву: https://www.opennet.ru/openforum/vsluhforumID3/115708.html#11

Ответить | Правка | ^ к родителю #71 | Наверх | Cообщить модератору

18. "Релиз системы распознавания текста Tesseract 4.0" –1 +/–

Сообщение от Ю.Т. (?), 01-Ноя-18, 07:27

Может, и не только.
В целом серия 3 была ещё так себе, но серия 4 в бетах и предвыпусках, т.е. минимум с 2016, это вполне достойный инструмент.
Из минусов: может сбиваться на обработке нетривиальной вёрстки полосы (две колонки текста, таблицы). Обучение (в частности новым буквам) документировано очень запутанно. Неудобный трекер (но сейчас-то гуглоплюс придётся сменить?..).

Ответить | Правка | ^ к родителю #8 | Наверх | Cообщить модератору

10. "Релиз системы распознавания текста Tesseract 4.0" –2 +/–

Сообщение от iPony (?), 01-Ноя-18, 04:16

А гуля то нет.
Был YAGF, но Qt4

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

12. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от Shevchuk (ok), 01-Ноя-18, 05:26

gImageReader

Ответить | Правка | ^ к родителю #10 | Наверх | Cообщить модератору

14. "Релиз системы распознавания текста Tesseract 4.0" –1 +/–

Сообщение от Аноним (14), 01-Ноя-18, 06:49

gImageReader не работает на macOS

Ответить | Правка | ^ к родителю #12 | Наверх | Cообщить модератору

15. "Релиз системы распознавания текста Tesseract 4.0" +6 +/–

Сообщение от ryoken (ok), 01-Ноя-18, 06:58

МакОС ненужен

Ответить | Правка | ^ к родителю #14 | Наверх | Cообщить модератору

24. "Релиз системы распознавания текста Tesseract 4.0" –1 +/–

Сообщение от Qwerty (??), 01-Ноя-18, 09:25

Вопрос не в ненужности, а в том, кросплатформенный ли софт, который называют кросплатформенным?

Ответить | Правка | ^ к родителю #15 | Наверх | Cообщить модератору

39. "Релиз системы распознавания текста Tesseract 4.0" –1 +/–

Сообщение от Клыкастый (ok), 01-Ноя-18, 12:55

собери/напиши - будет. пока никому не нужно, получается

Ответить | Правка | ^ к родителю #24 | Наверх | Cообщить модератору

62. "Релиз системы распознавания текста Tesseract 4.0" –1 +/–

Сообщение от lg (?), 02-Ноя-18, 08:48

кросплатформенный - это тот который работает на каких-то двух платформах, например на винде и на андроид =)

Ответить | Правка | ^ к родителю #24 | Наверх | Cообщить модератору

19. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от Аноним (19), 01-Ноя-18, 07:52

https://github.com/tesseract-ocr/tesseract/wiki/User-Projects-Б─⌠-3rdParty

Ответить | Правка | ^ к родителю #10 | Наверх | Cообщить модератору

21. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от mikhailnov (ok), 01-Ноя-18, 08:09

Gimagereader-Qt

Ответить | Правка | ^ к родителю #10 | Наверх | Cообщить модератору

16. "Релиз системы распознавания текста Tesseract 4.0" –1 +/–

Сообщение от ryoken (ok), 01-Ноя-18, 06:59

Распознаётся ли набранное левой задней ногой после пьянки?

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

25. "Релиз системы распознавания текста Tesseract 4.0" +4 +/–

Сообщение от Аноним (25), 01-Ноя-18, 09:31

Да, но распознан будет на основе нейронных сетей построенных на куриных мозгах и ответ будет написан "как курица лапой!" ;)

Ответить | Правка | ^ к родителю #16 | Наверх | Cообщить модератору

30. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от meequz (ok), 01-Ноя-18, 10:31

Зачем распознавать набранное?

Ответить | Правка | ^ к родителю #16 | Наверх | Cообщить модератору

33. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от Аноним (33), 01-Ноя-18, 10:58

Ох, ещё бы про член вспомнил.

Ответить | Правка | ^ к родителю #16 | Наверх | Cообщить модератору

28. "Релиз системы распознавания текста Tesseract 4.0" +3 +/–

Сообщение от Аноним (28), 01-Ноя-18, 10:07

>Осуществлён переход к нумерации версий в соответствии со спецификацией "Cемантическое версионирование", подразумевающей использование нотации X.Y.Z
Ну наконец то хоть в одном проекте адекваты.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

32. "Релиз системы распознавания текста Tesseract 4.0" –1 +/–

Сообщение от Аноним (33), 01-Ноя-18, 10:56

И чё? Как-будто версии, например, ядра не в формате X.Y.Z : 4.14.78, 4.18.16 Или GCC : 7.3.0

Ответить | Правка | ^ к родителю #28 | Наверх | Cообщить модератору

29. "Релиз системы распознавания текста Tesseract 4.0" –1 +/–

Сообщение от Аноним (27), 01-Ноя-18, 10:13

Это правильная команда для сохранения в текстовый файл?
tesseract phototest.tif phototest txt

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

40. "Релиз системы распознавания текста Tesseract 4.0" +3 +/–

Сообщение от Клыкастый (ok), 01-Ноя-18, 12:58

уже бы прочёл ман, выхлоп tesseract --help, запустил и точно бы знал.

Ответить | Правка | ^ к родителю #29 | Наверх | Cообщить модератору

43. "Релиз системы распознавания текста Tesseract 4.0" –1 +/–

Сообщение от Аноним (42), 01-Ноя-18, 14:55

Что с распознаванием таблиц? Не собираются этим заниматься?

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

48. "Релиз системы распознавания текста Tesseract 4.0" +1 +/–

Сообщение от Shevchuk (ok), 01-Ноя-18, 15:34

Есть Tabula (открытое ПО для извлечения данных из таблиц), они хотели бы, но сейчас ресурсов на это нет: https://github.com/tabulapdf/tabula/issues/409 — но там в обсуждении есть другие заинтересованнные в этом функционале лица и компании, в том числе готове финансировать разработку. Со стороны Tesseract тоже нужна поддержка: https://github.com/tesseract-ocr/tesseract/issues/1714
Ещё есть вот такое: https://github.com/UW-Deepdive-Infrastructure/table-extract

Ответить | Правка | ^ к родителю #43 | Наверх | Cообщить модератору

51. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от zeronet (ok), 01-Ноя-18, 18:53

Все таки не забросили проект ... Маст хев. Еще в 2000-х тысячных пытался пользоваться... Но с русским тогда не особо дружили разработчики

Ответить | Правка | ^ к родителю #43 | Наверх | Cообщить модератору

67. "Релиз системы распознавания текста Tesseract 4.0" –1 +/–

Сообщение от Кккк (?), 02-Ноя-18, 20:18

С русским из коробки и сейчас не очень, чтобы получить хоть какой-Нить приемлемый результат в реальных документах нужно много поучить, да и резальщик не очень.

Ответить | Правка | ^ к родителю #51 | Наверх | Cообщить модератору

52. "Релиз системы распознавания текста Tesseract 4.0" –1 +/–

Сообщение от lol (??), 01-Ноя-18, 19:53

Как оно в сравнении с FineReader? При условии, что сканы хорошо читаемые и вёрстка без изысков.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

54. "Релиз системы распознавания текста Tesseract 4.0" –1 +/–

Сообщение от Аноним (54), 01-Ноя-18, 20:03

В прошлой версии был кошмар.

Ответить | Правка | ^ к родителю #52 | Наверх | Cообщить модератору

57. "Релиз системы распознавания текста Tesseract 4.0" –1 +/–

Сообщение от Ю.Т. (?), 01-Ноя-18, 21:57

> Как оно в сравнении с FineReader? При условии, что сканы хорошо читаемые
> и вёрстка без изысков.
Серия 4 неплохо, справляется с различием "длинного с" и "f", хотя некоторые сканы приходится масштабировать и подкручивать гамму. Нормально проходит размер растра примерно 2500 на 3600 точек на лист А4.

Ответить | Правка | ^ к родителю #52 | Наверх | Cообщить модератору

79. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от t_cirkla (?), 19-Дек-18, 00:51

> Как оно в сравнении с FineReader? При условии, что сканы хорошо читаемые и вёрстка без изысков.
Как? Всё, что не FineReader, до сих пор не умеет сохранять форматирование отсканированного текста.

Ответить | Правка | ^ к родителю #52 | Наверх | Cообщить модератору

73. "Релиз системы распознавания текста Tesseract 4.0" +/–

Сообщение от werter (??), 03-Ноя-18, 18:45

OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched
https://github.com/jbarlow83/OCRmyPDF

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2026 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

5. "Релиз системы распознавания текста Tesseract 4.0"	–4 +/–
Сообщение от Аноним (5), 01-Ноя-18, 02:32
Версия для Windows есть?
Ответить \| Правка \| ^ к родителю #0 \| Наверх \| Cообщить модератору


	9. "Релиз системы распознавания текста Tesseract 4.0"	+1 +/–
	Сообщение от Аноним (-), 01-Ноя-18, 03:03
	Внезапно, да -> https://github.com/UB-Mannheim/tesseract/wiki Мог бы и сам скомпилить, или не виндавз-вэй?
	Ответить \| Правка \| ^ к родителю #5 \| Наверх \| Cообщить модератору


	27. "Релиз системы распознавания текста Tesseract 4.0"	–3 +/–
	Сообщение от Аноним (27), 01-Ноя-18, 09:58
	Версия 4.0.0.20181030 на Windows XP установилась, но не работает. Справка не запускается. Пишет msvcrt.dll точка входа в процедуру не найдена. В версии 3.05.02-20180621 справка запустилась.
	Ответить \| Правка \| ^ к родителю #9 \| Наверх \| Cообщить модератору


	46. "Релиз системы распознавания текста Tesseract 4.0"	–1 +/–
	Сообщение от h31 (ok), 01-Ноя-18, 15:27
	Скорее всего собрано новыми версиями вижуал студии, где выбросили поддержку WinXP. У меня подобная ошибка повально встречалась на WinXP SP2, потому что в какой-то момент эту версию задепрекейтили в компиляторе. Но даже с SP3 сейчас очень много софта не будет запускаться.
	Ответить \| Правка \| ^ к родителю #27 \| Наверх \| Cообщить модератору


	49. "Релиз системы распознавания текста Tesseract 4.0"	–1 +/–
	Сообщение от Аноним (-), 01-Ноя-18, 15:53
	> msvcrt.dll Вангую, в системе отсутствует c++ redistributable runtime, скорее всего 2017. Скачать можно отсюда https://visualstudio.microsoft.com/downloads/ , но не факт, что на ХРю установится.
	Ответить \| Правка \| ^ к родителю #27 \| Наверх \| Cообщить модератору


	56. "Релиз системы распознавания текста Tesseract 4.0"	+4 +/–
	Сообщение от Аноним (56), 01-Ноя-18, 21:51
	>Версия 4.0.0.20181030 на Windows XP установилась, но не работает. Так бывает, когда используешь ОС 17-летней давности. Ты бы ещё на Red Hat Linux 7 (не путать с RHEL) попытался поставить.
	Ответить \| Правка \| ^ к родителю #27 \| Наверх \| Cообщить модератору


	59. "Релиз системы распознавания текста Tesseract 4.0"	–3 +/–
	Сообщение от Аноним (59), 02-Ноя-18, 08:03
	> Так бывает, когда используешь ОС 17-летней давности. Да так бывает. Но не совсем согласен с Вами. Windows XP без сервис паков и обновлений не поддерживала USB - это система как раз 17-летней давности. Но система развивалась и её поддержку прекратили 8 апреля 2014, так-что ей не 17 лет а меньше. Кроме того есть родственные версии Windows XP, которые поддерживаются до сих пор, например Windows Embedded. Windows XP попросту уничтожают. Я не отрицаю, что в более поздних версиях Windows нет ничего нового, хорошего, нужного, полезного, удобного, есть встроенная поддержка прозрачных тем.
	Ответить \| Правка \| ^ к родителю #56 \| Наверх \| Cообщить модератору


	60. "Релиз системы распознавания текста Tesseract 4.0"	+/–
	Сообщение от lg (?), 02-Ноя-18, 08:42
	>>есть встроенная поддержка прозрачных тем. уже нет =)
	Ответить \| Правка \| ^ к родителю #59 \| Наверх \| Cообщить модератору


	63. "Релиз системы распознавания текста Tesseract 4.0"	–2 +/–
	Сообщение от iPony (?), 02-Ноя-18, 11:20
	> Windows XP без сервис паков и обновлений не поддерживала USB Обман. Не поддерживала USB 2.0. А USB вполне. А так всё равно- 17 летняя ОС по архитектуре.
	Ответить \| Правка \| ^ к родителю #59 \| Наверх \| Cообщить модератору


	75. "Релиз системы распознавания текста Tesseract 4.0"	+/–
	Сообщение от neit95 (ok), 04-Ноя-18, 18:48
	По архитектуре она Windows NT, как и более современные Windows'ы.
	Ответить \| Правка \| ^ к родителю #63 \| Наверх \| Cообщить модератору


	64. "Релиз системы распознавания текста Tesseract 4.0"	+/–
	Сообщение от Аноним (64), 02-Ноя-18, 11:38
	>Windows XP попросту уничтожают Да-да, это всё заговор! >в более поздних версиях Windows нет ничего нового, хорошего, нужного, полезного, удобного Улучшение безопасности, более-менее адекватный сэндбоксинг приложений, вынос многих драйверов в юзерспейс. Ничего полезного, да.
	Ответить \| Правка \| ^ к родителю #59 \| Наверх \| Cообщить модератору


	74. "Релиз системы распознавания текста Tesseract 4.0"	+/–
	Сообщение от asdasd (?), 03-Ноя-18, 20:37
	А заодно более убогие элеваторы процессов, I/O, неадекватный расход оперативки ни на что и неадекватное количество занимаемого места на винчестере.
	Ответить \| Правка \| ^ к родителю #64 \| Наверх \| Cообщить модератору


	78. "Релиз системы распознавания текста Tesseract 4.0"	+/–
	Сообщение от scorry (ok), 16-Ноя-18, 12:46
	Помню, как ко мне зашёл клиент и увидел на компе приглашение мс-дос 6.2 или 6.22 — не упомню. Резво попросил записать ему бут-дискетку. Потом жаловался, мол, гадость эта ваша новая дос, не хватает на дискете места под это, под то и во-о-н под то. А 3.3 — в самый раз, и ещё игрушка-бильярд помещается. Или покер. Снова жеж не упомню. Дискеты-то не мои были.
	Ответить \| Правка \| ^ к родителю #74 \| Наверх \| Cообщить модератору


	65. "Релиз системы распознавания текста Tesseract 4.0"	+/–
	Сообщение от Аноним (65), 02-Ноя-18, 13:47
	USB винда поддерживает ещё с Windows 95 OSR2, для которой мелкомягкие специальную обнову выпустили. В Win98 и после неё - из коробки.
	Ответить \| Правка \| ^ к родителю #59 \| Наверх \| Cообщить модератору

6. "Релиз системы распознавания текста Tesseract 4.0"	–1 +/–
Сообщение от Аноним (5), 01-Ноя-18, 02:33
К новости не хватает скрееншотов.
Ответить \| Правка \| ^ к родителю #0 \| Наверх \| Cообщить модератору


	38. "Релиз системы распознавания текста Tesseract 4.0"	+/–
	Сообщение от Онаним (?), 01-Ноя-18, 12:52
	Это чисто движок вроде, либа, интерфейс сделай сам.
	Ответить \| Правка \| ^ к родителю #6 \| Наверх \| Cообщить модератору

7. "Релиз системы распознавания текста Tesseract 4.0"	+/–
Сообщение от Аноним (5), 01-Ноя-18, 02:43
> Результат может сохраняться как открытым текстом, так и в форматах HTML, PDF и TSV. Недостаточно поддерживаемых форматов, ещё нужно хотя-бы .odt,, .rtf *.doc...
Ответить \| Правка \| ^ к родителю #0 \| Наверх \| Cообщить модератору


	22. "Релиз системы распознавания текста Tesseract 4.0"	+/–
	Сообщение от mikhailnov (ok), 01-Ноя-18, 08:10
	От этого мало толку, т.к. нет нормального сохранения исходного форматирования текста.
	Ответить \| Правка \| ^ к родителю #7 \| Наверх \| Cообщить модератору


	50. "Релиз системы распознавания текста Tesseract 4.0"	+/–
	Сообщение от Аноним (50), 01-Ноя-18, 16:31
	А чем плох hOCR?
	Ответить \| Правка \| ^ к родителю #22 \| Наверх \| Cообщить модератору

8. "Релиз системы распознавания текста Tesseract 4.0"	–2 +/–
Сообщение от Аноним (5), 01-Ноя-18, 02:58
Tesseract 4.0 может распознавать текст на скрееншотах окошек программ, веб-страниц и т.п.?
Ответить \| Правка \| ^ к родителю #0 \| Наверх \| Cообщить модератору


	11. "Релиз системы распознавания текста Tesseract 4.0"	+7 +/–
	Сообщение от Shevchuk (ok), 01-Ноя-18, 05:25
	https://i.imgur.com/uxab5b7.png
	Ответить \| Правка \| ^ к родителю #8 \| Наверх \| Cообщить модератору


	26. "Релиз системы распознавания текста Tesseract 4.0"	+1 +/–
	Сообщение от Аноним (26), 01-Ноя-18, 09:40
	Нормальный, конечно, результат, но такой чистый текст можно бы и получше распознавать. Бросаются в глаза на ровном месте съеденные пробелы, кривое определение совершенно нормальных букв. Возможно, на русском языке мало натренировали, но для сканов, например, я бы это пока не использовал.
	Ответить \| Правка \| ^ к родителю #11 \| Наверх \| Cообщить модератору


	34. "Релиз системы распознавания текста Tesseract 4.0"	+1 +/–
	Сообщение от Atterratio (ok), 01-Ноя-18, 11:32
	Я работал со старой версией программы, ей можно скармливать данные, и распознавание значительно улучшится.
	Ответить \| Правка \| ^ к родителю #26 \| Наверх \| Cообщить модератору


	47. "Релиз системы распознавания текста Tesseract 4.0"	+/–
	Сообщение от h31 (ok), 01-Ноя-18, 15:30
	Программы распознавания обычно затачивают под отсканированные изображения, где разрешение под 600 DPI. На обычном экране, где мало того, что всего лишь 96 DPI, да ещё и радуга из-за сглаживания, работать это будет плохо.
	Ответить \| Правка \| ^ к родителю #26 \| Наверх \| Cообщить модератору


	61. "Релиз системы распознавания текста Tesseract 4.0"	–2 +/–
	Сообщение от lg (?), 02-Ноя-18, 08:44
	с экрана боде тработать идеально, просто не адаптирована система. Символы пиксель в пиксель совпадают при одинаковом шрифте кегле и разрешении.
	Ответить \| Правка \| ^ к родителю #47 \| Наверх \| Cообщить модератору


	36. "Релиз системы распознавания текста Tesseract 4.0"	+/–
	Сообщение от fske (?), 01-Ноя-18, 11:52
	это у вас меню в заголовке окна?
	Ответить \| Правка \| ^ к родителю #11 \| Наверх \| Cообщить модератору


	44. "Релиз системы распознавания текста Tesseract 4.0"	+/–
	Сообщение от Shevchuk (ok), 01-Ноя-18, 14:59
	Да. Не то чтобы я большой любитель CSD, правда, скорее наоборот. Просто если уж оно впилено в приложение, результат принудительного отключения выглядит ещё хуже.
	Ответить \| Правка \| ^ к родителю #36 \| Наверх \| Cообщить модератору


	37. "Релиз системы распознавания текста Tesseract 4.0"	+1 +/–
	Сообщение от kknight (ok), 01-Ноя-18, 12:13
	у gImageReader есть нормальный Qt-интерфейс, вообще-то.
	Ответить \| Правка \| ^ к родителю #11 \| Наверх \| Cообщить модератору


	41. "Релиз системы распознавания текста Tesseract 4.0"	+/–
	Сообщение от Shevchuk (ok), 01-Ноя-18, 14:52
	О, спасибо, не знал. В репах Debian и Ubuntu только GTK, и пользуюсь я им настолько редко, что добавлять PPA ради этого, конечно, не буду : ) Обсуждение добавления Qt версии: https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=891414
	Ответить \| Правка \| ^ к родителю #37 \| Наверх \| Cообщить модератору


	42. "Релиз системы распознавания текста Tesseract 4.0"	+/–
	Сообщение от Аноним (42), 01-Ноя-18, 14:53
	А смесь русского и английского он умеет распознавать? Или "Немек Раскаага" неизбежен?
	Ответить \| Правка \| ^ к родителю #11 \| Наверх \| Cообщить модератору