Выпуск системы распознавания текста GNU Ocrad 0.28

21.01.2022 08:20 (MSK)

После трёх лет с момента прошлого выпуска сформирован релиз системы распознавания текста Ocrad 0.28 (Optical Character Recognition), развиваемой под эгидой проекта GNU. Ocrad может применяться как в форме библиотеки для интеграции функций OCR в другие приложения, так и в форме обособленной утилиты, которая на основе переданного на вход изображения выдаёт текст в UTF-8 или 8-битных кодировках.

Для оптического распознавания в Ocrad используется метод выделение признаков (feature extraction). В состав входит анализатор макета страницы, позволяющий корректно разделять столбцы и блоки текста в печатных документах. Распознавание поддерживается только для символов из кодировок "ascii", "iso-8859-9" и "iso-8859-15" (поддержка кириллицы отсутствует).

Отмечается, что в новый выпуск включена большая порция мелких исправлений и улучшений. Наиболее значительным изменением стала поддержка формата изображений PNG, реализованного при помощи библиотеки libpng, что значительно упростило работу с программой, так как ранее на вход могли подаваться только изображения в форматах PNM.

исправить +16 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/56553-ocr

Ключевые слова: ocr, ocrad

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (40)

1.1, Аноним (1), 08:30, 21/01/2022 [ответить] [﹢﹢﹢] [ · · · ]	+31 +/–
> поддержка кириллицы отсутствует Ваша новость очень важна для нас.

2.3, Аноним (3), 08:43, 21/01/2022 [^] [^^] [^^^] [ответить]	–5 +/–
распознавание символов - это буквально самое первое, чему учат в TensorFlow. Эдакий хелловорлд от нейросетей. В этой связи нафиг нужен сабж, да еще и без кириллицы - не ясно.

3.6, Аноним (6), 10:48, 21/01/2022 [^] [^^] [^^^] [ответить]	+2 +/–
Если кому-то нужны не шашечки, а ехать тот же tesseract можно обучать самому. А сабж походу не обучаемый, как минимум бегло в мануле я про это ничего не нашел.

4.9, rvs2016 (ok), 12:33, 21/01/2022 [^] [^^] [^^^] [ответить]	+/–
> Если кому-то нужны не шашечки, а ехать тот же tesseract Ну да. Тоже про tesseract подумал. А сабж едва едва только научился один распространённый формат распознавать - PNG. А остальные форматы наверно лет через 20 научится распознавать?

3.14, Урри (ok), 16:40, 21/01/2022 [^] [^^] [^^^] [ответить]	+1 +/–
Сабж нужен чтобы взять и запустить, а не учиться тензорфлоу, программировать и, главное, долго и нудно обучать.

4.16, Андрей (??), 17:50, 21/01/2022 [^] [^^] [^^^] [ответить]	+/–
так у тессеракта также - просто собираешь и скармливаешь ему нужную сетку/словарь, только с поддержкой кучи языков

5.18, Урри (ok), 18:27, 21/01/2022 [^] [^^] [^^^] [ответить]	+/–
Ну я просто рассказал о том, что знаю и использовал. А что, действительно работает? Вы пробовали? https://nanonets.com/blog/ocr-with-tesseract/

6.28, Аноним (28), 00:24, 22/01/2022 [^] [^^] [^^^] [ответить]	+/–
Распознавал капчу tesseract, а картинку подготавливал плагинами для GIMP на питоне. Все работало точность распознавания была выше 50%. Чего хватало. Кстати в последних гимпах из коробки не идет функционал написания плагинов на питоне, его надо с бубном ставить.

5.36, лютый жабби__ (?), 08:50, 23/01/2022 [^] [^^] [^^^] [ответить]	+/–
>просто собираешь и скармливаешь ему нужную сетку/словарь, только с поддержкой кучи языков господа, вы о чём? тессеракт уже много лет из коробки русский знает. проблема только с несколькими языками на одной странице (и то может уже ОК)

3.23, Аноним (23), 23:55, 21/01/2022 [^] [^^] [^^^] [ответить]	+1 +/–
Дядя. Распознаванию символов учили ещё в самом начале девяностых. И уже тогда это сносно работало. Двигай со своим TensorFlow в Windows 3.1, давай!

3.33, Nuzhny (?), 00:04, 23/01/2022 [^] [^^] [^^^] [ответить]	+3 +/–
Распознавание символов никому не нужно. Все хотят распознавание документов с пониманием его внутренней структуры (таблицы, колонки, графики, чертежи), превращение скана в читабельный документ, исправление ошибок от засветки, геометрических и оптических искажений, понимания языка всего текста и его частей (термины на другом языке внутри текста), семантическое выделение отдельных частей (заголовки, шапки, подписи, даты и т.п.)

1.2, Аноним (2), 08:33, 21/01/2022 [ответить] [﹢﹢﹢] [ · · · ]	+6 +/–
GNU как обычно собирает лучших представителей. Большой успех за 19+ лет разработки.

1.4, lockywolf (ok), 08:44, 21/01/2022 [ответить] [﹢﹢﹢] [ · · · ]	+3 +/–
А можно ли его научить показывать автобусы, лодки, или самолёты на картинке? Спрашиваю для сестры.

2.5, _hide_ (ok), 10:29, 21/01/2022 [^] [^^] [^^^] [ответить]	+/–
Можно, но это он научится делать лет через 15-20 (((-:

2.7, Аноним (6), 10:49, 21/01/2022 [^] [^^] [^^^] [ответить]	+2 +/–
В tesseract можно. Юникодный моноцветный думаю легко можно научить распознавать.

2.15, Урри (ok), 16:43, 21/01/2022 [^] [^^] [^^^] [ответить]	+/–
Возьми https://pjreddie.com/darknet/yolo/, она умеет из коробки. https://www.youtube.com/watch?v=MPU2HistivI

3.27, Аноним (28), 00:19, 22/01/2022 [^] [^^] [^^^] [ответить]	–4 +/–
Оно запущено через дев сервер от джанги. Ржу всем офисом над этой поделкой.

4.29, Урри (ok), 14:24, 22/01/2022 [^] [^^] [^^^] [ответить]

+4 +/–

> Оно запущено через дев сервер от джанги. Ржу всем офисом над этой
> поделкой.

Оно запускается через git clone и make.

Уверен, что не над тобой весь офис ржет?

1.8, Аноним (8), 12:26, 21/01/2022 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
А есть что готовое кроме Tesseract и CuneiForm, что можно легко и быстро использовать (включая кириллицу)?

2.13, lockywolf (ok), 14:37, 21/01/2022 [^] [^^] [^^^] [ответить]	–1 +/–
Abbyy fine reader server for Linux.

3.38, Аноним (38), 08:16, 24/01/2022 [^] [^^] [^^^] [ответить]	+/–
это оно? ABBYY CLI OCR for Linux - End of Life as of 31 March 2020

4.39, lockywolf (ok), 08:43, 24/01/2022 [^] [^^] [^^^] [ответить]	+/–
> это оно? > ABBYY CLI OCR for Linux - End of Life as of 31 > March 2020 Можно его в Докере запустить, со старыми библиотеками.

1.10, Аноним (10), 12:41, 21/01/2022 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Отсутствие поддержки кириллицы просто означает, что надо найти энтузиастов, организовать их и запилить поддержку. А если не получается, значит не очень-то она и востребована.

2.22, Тот_Самый_Анонимус (?), 23:38, 21/01/2022 [^] [^^] [^^^] [ответить]	–1 +/–
Или послать нах гнутое поделие и пользоваться нормальным софтом. Как тебе такое, анон?

3.26, Аноним (10), 00:19, 22/01/2022 [^] [^^] [^^^] [ответить]

+/–

Хороший специалист всегда востребован.
Чтобы быть хорошим специалистом, надо тренироваться много и всегда.
Чтобы было, на чём тренироваться, нужны проекты, в которых что-то не реализовано и что следовало бы реализовать.

Поэтому недопиленные проекты -- это возможности для тех, кто может.

-- учись конструктивно мыслить.

4.34, IRASoldier_registered (ok), 04:04, 23/01/2022 [^] [^^] [^^^] [ответить]	–1 +/–
>Поэтому недопиленные проекты -- это возможности для тех, кто ...ищет восторженных энтузи^W лохов, готовых забесплатно доделать потенциально перспективный продукт.

4.37, Тот_Самый_Анонимус (?), 09:09, 23/01/2022 [^] [^^] [^^^] [ответить]

+1 +/–

> Поэтому недопиленные проекты -- это возможности для тех, кто может.

В принципе есть рациональное зерно. Только гну и прочие гпл имеют недостаток: придётся на них работать. Фонд очень не любит принимать код под своей лицензией, они предпочитают передачу прав.

Так что амбициозный человек предпочтёт более свободные проекты (под бсд, или апачем), дающие ему право распоряжаться своим кодом на своё усмотрение, а не навязывающие глупые условия. И, как я и сказал ранее, пошлёт нах гнутое поделие.

1.11, Аноним (11), 14:13, 21/01/2022 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Самая убогая из программ распознавания. Доля ошибок 10-70% в идеальных условиях, когда Tesseract и CuneiForm дают менее 1%.

2.12, Аноним (12), 14:27, 21/01/2022 [^] [^^] [^^^] [ответить]	+/–
Ты не понимаешь, это всё не важно. Единственно важные вещи: слово GNU в названии, лицензия GPL и передача копирайтов фонду GNU.

2.17, Аноним (17), 18:14, 21/01/2022 [^] [^^] [^^^] [ответить]	+/–
когда программа пытается думать и заменяет целые слова? особенно смешно, когда новообразование вписывается в контекст и вычитка становится нетривиальной

2.19, Аноним (-), 18:35, 21/01/2022 [^] [^^] [^^^] [ответить]	+1 +/–
CuneiForm разве живой? - это убогое Г из 90-ых. Оно сдохло вроде, но выкинув исходники.

3.20, Аноним (-), 18:36, 21/01/2022 [^] [^^] [^^^] [ответить]	+1 +/–
да, забыл сказать - код их овно.

3.21, Аноним (11), 19:45, 21/01/2022 [^] [^^] [^^^] [ответить]	–1 +/–
В таком случае, ocrad -- убожество, которое было стыдно показывать в 1980х. Даже до появления свободных Cuneiform и Tesseract он сливал свободному gocr. А Cuneiform и Tesseract отлично работают.

3.30, Аноним (30), 14:43, 22/01/2022 [^] [^^] [^^^] [ответить]	+/–
apt install cuneiform -y

1.24, Аноним (23), 23:56, 21/01/2022 [ответить] [﹢﹢﹢] [ · · · ]	–2 +/–
По сравнению с ABBYY это. конечно, говнo?

2.25, Аноним (23), 00:05, 22/01/2022 [^] [^^] [^^^] [ответить]	–1 +/–
А, под винду бинарников нет. Не нужно.

2.31, Аноним (30), 16:53, 22/01/2022 [^] [^^] [^^^] [ответить]	+/–
> По сравнению с ABBYY если он исходники выложит тогда о сравнении и поговорим. А так нет предмета сравнения.

3.32, Аноним (32), 19:23, 22/01/2022 [^] [^^] [^^^] [ответить]	–1 +/–
Документ на русском языке

3.35, IRASoldier_registered (ok), 04:07, 23/01/2022 [^] [^^] [^^^] [ответить]	+2 +/–
Предмет сравнения инструментов есть всегда - результат работы этих инструментов. А как и из чего производились инструменты интересно или узкому кругу специалистов, которые делают инструменты или религиозным фанатикам, боящимся оскверниться "нечистым" инструментом. Так что в первую очередь надо сравнивать качество сканов.

2.40, Аноним (40), 01:54, 25/01/2022 [^] [^^] [^^^] [ответить]	+/–
Он говно по сравнению с ABBYY, tesseract, cuneiform, ReadIris и, наверняка, ещё кучей. Хотя в 2010 году существовали и успешно продавались сливавшие ему коммерческие системы.

Добавить комментарий

Текст: