Выпуск системы распознавания текста GNU Ocrad 0.27

14.01.2019 09:11 (MSK)

Подготовлен релиз системы распознавания текста Ocrad (Optical Character Recognition) 0.27, развиваемой под эгидой проекта GNU. Ocrad может применяться как в форме библиотеки для интеграции функций OCR в другие приложения, так и в форме обособленной утилиты, которая на основе переданного на вход изображения выдаёт текст в UTF-8 или 8-битных кодировках.

Для оптического распознавания в Ocrad используется метод выделение признаков (feature extraction). В состав входит анализатор макета страницы, позволяющий корректно разделять столбцы и блоки текста в печатных документах. Распознавание поддерживается только для символов из кодировок "ascii", "iso-8859-9" и "iso-8859-15" (поддержка кириллицы отсутствует). Передаваемые для распознавания изображения должны быть в форматах pbm, pgm или ppm.

При подготовке нового выпуска работа была сосредоточена на устранении известных проблем и ошибок. Устранены замечания компилятора, выводимые в режиме "-Werror=catch-value" для std::bad_alloc. Обеспечена проверка ошибок при закрытии входного файла. В скрипт configure добавлена поддержка добавления дополнительных опций к ранее определённой переменной CXXFLAGS с использованием синтаксиса 'CXXFLAGS+=OPTIONS'.

исправить +15 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/49945-ocrad

Ключевые слова: ocrad, ocr, text

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (35)

1.1, CHERTS (ok), 12:14, 14/01/2019 [ответить] [﹢﹢﹢] [ · · · ]	+7 +/–
>>Распознавание поддерживается только для символов из кодировок "ascii", "iso-8859-9" и "iso-8859-15" (поддержка кириллицы отсутствует). Зачем это пoделие ? Почему в нем нельзя использовать тот де TesseractOCR ?

2.2, Аноним (2), 12:26, 14/01/2019 [^] [^^] [^^^] [ответить]	–6 +/–
Ой, прости, тебя спросить забыли, когда проект начинали.

3.3, Тонкая (?), 14:29, 14/01/2019 [^] [^^] [^^^] [ответить]	+5 +/–
А ответить "слабо"? Или только тыкать способно?

3.13, Анонзо (?), 21:17, 14/01/2019 [^] [^^] [^^^] [ответить]	+/–
Ой, не ты ли начинал то?

2.28, Аноним (28), 11:59, 15/01/2019 [^] [^^] [^^^] [ответить]	+/–
когда какой-нибудь кениец запилит кириллицу в ocrad, начнет не хватать таблиц и старославянского, но ничего, индийский гуру-полиглот придёт на помощь

2.29, Аноним (29), 11:59, 15/01/2019 [^] [^^] [^^^] [ответить]	+1 +/–
>Зачем это пoделие ? Почему в нем нельзя использовать тот же ABBYY? Исправил, не благодари.

1.4, evkogan (?), 15:40, 14/01/2019 [ответить] [﹢﹢﹢] [ · · · ]	+3 +/–
Это поделие было когда teseract не было. А вот зачем кто-то шевелит труп не знаю.

2.21, Аноним (-), 03:02, 15/01/2019 [^] [^^] [^^^] [ответить]	+/–
А как там Cuniform поживает? Есть в нем еще смсл, или Teserakt вобрал в себя все его наработки?

3.24, рпрп (?), 08:16, 15/01/2019 [^] [^^] [^^^] [ответить]	+/–
не развивается давно. Да тессеракт слабо юзабилен, т к нормальную оболочку к нему напиать забыли.

1.5, Чювак (?), 16:02, 14/01/2019 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
Это конечно интересно, но где кочать готовые .apk или .exe чтоб в 2 клика все работало.

2.11, VINRARUS (ok), 21:08, 14/01/2019 [^] [^^] [^^^] [ответить]	+1 +/–
На торенте.

1.6, Аноним (6), 16:36, 14/01/2019 [ответить] [﹢﹢﹢] [ · · · ]	+/–
10 лет назад был худшим из распознавателей. Даже GOCR лучше. Не говоря уж о tesseract, cuneiform и коммерческих системах. Зачем о нём вспомнили?

1.7, Аноним (-), 17:49, 14/01/2019 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Чем щас в Linux распознавать тексты? Есть аналог FineReader'а?

2.9, Аноним (6), 18:12, 14/01/2019 [^] [^^] [^^^] [ответить]	+/–
Был GUI к cuneiform. Без таблиц. Tesseract допилили, вроде, тоже без таблиц. Несколько оффтопичных программ хорошо работали под Вайном, включая FineReader и ReadIris.

2.10, KonstantinB (ok), 20:02, 14/01/2019 [^] [^^] [^^^] [ответить]	+/–
Есть Finereader Engine для linux, но цены там какие-то совсем неприличные. Современный tesseract неплох, но под кириллицу требует тренировки (можно попробовать погуглить готовые модели).

3.19, Аноним (19), 23:32, 14/01/2019 [^] [^^] [^^^] [ответить]	+1 +/–
Т.е. двигло за бабло они осилили, а морду нарисовать - нема? Уже вижу как домашний пользователь ковыряется с этим движком...

2.14, Молчуны (?), 21:28, 14/01/2019 [^] [^^] [^^^] [ответить]	+1 +/–
YAGF — программа, предоставляющая графический интерфейс пользователя для систем оптического распознавания символов CuneiForm и Tesseract.

3.37, Аноним (37), 18:24, 05/03/2020 [^] [^^] [^^^] [ответить]	+/–
Падает, пока не сделана небольшая настройка.

2.20, Аноним (20), 00:49, 15/01/2019 [^] [^^] [^^^] [ответить]	+/–
Есть Wine.

1.8, Аноним (8), 17:59, 14/01/2019 [ответить] [﹢﹢﹢] [ · · · ]	+/–
tesseract и гуи морда к нему

2.15, Enter Your Name (?), 23:08, 14/01/2019 [^] [^^] [^^^] [ответить]	+4 +/–
"В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0) осуществляется с помощью дополнительных модулей." А чего в виде модулей, а не в базовой комплектации? И как понять развивается ли этот модуль или давно забили на него? Насколько хорошо распознается русские тексты и шрифты в Tesseract по сравнению с Finereader?

3.25, рпрп (?), 08:19, 15/01/2019 [^] [^^] [^^^] [ответить]	+/–
распознает более менее, но на выходе plain text

1.12, Аноним (12), 21:11, 14/01/2019 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
> Передаваемые для распознавания изображения должны быть в форматах pbm, pgm или ppm. Это шутка такая ?

2.16, Alexey (??), 23:17, 14/01/2019 [^] [^^] [^^^] [ответить]	+3 +/–
Ты чо, самые распространенные графформаты ... среди рептилоидов

1.17, Ponchik (?), 23:19, 14/01/2019 [ответить] [﹢﹢﹢] [ · · · ]

+11 +/–

Википедия показывает 5 основных СПО систем OCR:

1. CuneiForm

2. GOCR

3. Ocrad

4. OCRopus

5. Tesseract

Причем если 1 и 5 вроде как живые и шевелятся, то про 2 и 4 вообще непонятно, а 3 (тот что из новости) вроде ожившего мертвеца и распознает фигово.

Если кто-то может вкратце рассказать по каждой из 5 - был бы признателен (и не я один).

Так же есть 2 морды:

1. OCRFeeder (на GTK), последняя версия 2014 год

2. YAGF (на Qt), последняя версия 2015 год

Как видим, на GUI забили большой и толстый. Хороший GUI никому не нужен. Ну что могу сказать, с такой философией линукс на десктопе еще не скоро освоится. Не будет пользователь крaснoглaзить в консоли, хотя лично мне и консоль сойдет, лишь бы оно нормально распознавало. Но мало кто станет таким заниматься, это факт. Не жалуюсь, просто высказался по теме.

2.18, Виталий (??), 23:29, 14/01/2019 [^] [^^] [^^^] [ответить]	+4 +/–
> CuneiForm > Последняя версия 1.1.0 (19 апреля 2011) Настораживает. Из живых и активных я так понял только Tesseract от гугла. Небось уже зондов напихали или напихают, или сделают зависимым от онлайна/нейронки. :(

2.22, AndrewR (?), 06:40, 15/01/2019 [^] [^^] [^^^] [ответить]	+/–
https://github.com/manisandro/gImageReader "gImageReader is a simple Gtk/Qt front-end to tesseract-ocr." (gtk3/qt5)

2.30, Аноним (6), 15:04, 15/01/2019 [^] [^^] [^^^] [ответить]	+/–
GOCR давно пригоден для распознавания английской капчи, но расширять его нереально, проще переписать с нуля. Вот на него и забили. OCRopus -- исследовательский проект, который пилится каким-то профессором в свободное время. Для хорошего распознавания рекомендуется серый текст на серой бумаге.

2.34, Gannet (ok), 21:30, 16/01/2019 [^] [^^] [^^^] [ответить]	+/–
>1. CuneiForm Да, по степени говняности качества ПО, оно действительно на первом месте.

1.23, Адекват (ok), 07:18, 15/01/2019 [ответить] [﹢﹢﹢] [ · · · ]	–8 +/–
Мне кажется это как раз тот случай, который показывает почему софт бывает платны... большой текст свёрнут, показать

2.26, рпрп (?), 08:25, 15/01/2019 [^] [^^] [^^^] [ответить]	–1 +/–
Если все будет бесплатно, то работать придется всем в 10 раз меньше, но пиво и сериальчики будут только твоего домашнего происхождения. Куда девать свободное время каждый решает по своему, кто-то будет делать софт, кто-то ничего не делать. С бесплатным софтом есть хитрый нае**. Бесплатный софт общего назначения, его готов создавать каждый второй, но для решения спец задач сразу ценник космический (либо его нет под линь, что чаще сего бывает).

3.35, Gannet (ok), 21:34, 16/01/2019 [^] [^^] [^^^] [ответить]	+1 +/–
А с платным софтом нет нет хитрого нае? Докажи. На примере Шиндошs например. Нет никакого нае, точно? Ты действительно в это веришь?

2.27, mma (?), 11:45, 15/01/2019 [^] [^^] [^^^] [ответить]	+/–
>Мне кажется это как раз тот случай, который показывает почему софт бывает платным. Это тот случай который показывает что бывает софт для эндюзера, а бы бывает для программистов которые интегрирую различный функционал в различные системы. Желание первых получить нахаляву замену платному софту понятно, но нежелание других делать это нахаляву для них еще понятнее.

2.33, иисус (?), 11:42, 16/01/2019 [^] [^^] [^^^] [ответить]	+/–
Господи, вторая половина это прям про меня ;Ж))

2.36, Тот_Самый_Анонимус (?), 15:21, 30/03/2019 [^] [^^] [^^^] [ответить]	+/–
>Адекват >Почему платный софт лучше бесплатного. Блендер смотрит на тебя, как на ГМО. К тому же, ник неправильно подобран.

игнорирование участников | лог модерирования

Добавить комментарий

Текст: