The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

14.01.2019 09:11  Выпуск системы распознавания текста GNU Ocrad 0.27

Подготовлен релиз системы распознавания текста Ocrad (Optical Character Recognition) 0.27, развиваемой под эгидой проекта GNU. Ocrad может применяться как в форме библиотеки для интеграции функций OCR в другие приложения, так и в форме обособленной утилиты, которая на основе переданного на вход изображения выдаёт текст в UTF-8 или 8-битных кодировках.

Для оптического распознавания в Ocrad используется метод выделение признаков (feature extraction). В состав входит анализатор макета страницы, позволяющий корректно разделять столбцы и блоки текста в печатных документах. Распознавание поддерживается только для символов из кодировок "ascii", "iso-8859-9" и "iso-8859-15" (поддержка кириллицы отсутствует). Передаваемые для распознавания изображения должны быть в форматах pbm, pgm или ppm.

При подготовке нового выпуска работа была сосредоточена на устранении известных проблем и ошибок. Устранены замечания компилятора, выводимые в режиме "-Werror=catch-value" для std::bad_alloc. Обеспечена проверка ошибок при закрытии входного файла. В скрипт configure добавлена поддержка добавления дополнительных опций к ранее определённой переменной CXXFLAGS с использованием синтаксиса 'CXXFLAGS+=OPTIONS'.

  1. Главная ссылка к новости (https://www.mail-archive.com/i...)
  2. OpenNews: Facebook открыл код платформы Detectron для распознавания объектов на фотографиях
  3. OpenNews: Facebook опубликовал открытую систему распознавания речи Wav2letter++
  4. OpenNews: Релиз системы распознавания текстов Cuneiform 1.1.0
  5. OpenNews: Новая версия оболочки для распознавания текста YAGF 0.9.4
  6. OpenNews: Релиз системы распознавания текста Tesseract 4.0
Лицензия: CC-BY
Тип: Программы
Ключевые слова: ocrad, ocr, text
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение Ajax/Линейный | Раскрыть все сообщения | RSS
 
  • 1.1, CHERTS (ok), 12:14, 14/01/2019 [ответить] [показать ветку] [···]    [к модератору]
  • +7 +/
    >>Распознавание поддерживается только для символов из кодировок "ascii", "iso-8859-9" и "iso-8859-15" (поддержка кириллицы отсутствует).

    Зачем это пoделие ? Почему в нем нельзя использовать тот де TesseractOCR ?

     
     
  • 2.2, Аноним (2), 12:26, 14/01/2019 [^] [ответить]    [к модератору]
  • –6 +/
    Ой, прости, тебя спросить забыли, когда проект начинали.
     
     
  • 3.3, Тонкая (?), 14:29, 14/01/2019 [^] [ответить]    [к модератору]
  • +5 +/
    А ответить "слабо"? Или только тыкать способно?
     
  • 3.13, Анонзо (?), 21:17, 14/01/2019 [^] [ответить]    [к модератору]
  • +/
    Ой, не ты ли начинал то?
     
  • 2.28, Аноним (28), 11:59, 15/01/2019 [^] [ответить]    [к модератору]
  • +/
    когда какой-нибудь кениец запилит кириллицу в ocrad, начнет не хватать таблиц и старославянского, но ничего, индийский гуру-полиглот придёт на помощь
     
  • 2.29, Аноним (29), 11:59, 15/01/2019 [^] [ответить]    [к модератору]  
  • +1 +/
    >Зачем это пoделие ? Почему в нем нельзя использовать тот же ABBYY?

    Исправил, не благодари.

     
  • 1.4, evkogan (?), 15:40, 14/01/2019 [ответить] [показать ветку] [···]    [к модератору]  
  • +3 +/
    Это поделие было когда teseract не было.
    А вот зачем кто-то шевелит труп не знаю.
     
     
  • 2.21, Аноним (-), 03:02, 15/01/2019 [^] [ответить]    [к модератору]  
  • +/
    А как там Cuniform поживает? Есть в нем еще смсл, или Teserakt вобрал в себя все его наработки?
     
     
  • 3.24, рпрп (?), 08:16, 15/01/2019 [^] [ответить]    [к модератору]  
  • +/
    не развивается давно. Да тессеракт слабо юзабилен, т к нормальную оболочку к нему напиать забыли.
     
  • 1.5, Чювак (?), 16:02, 14/01/2019 [ответить] [показать ветку] [···]    [к модератору]  
  • –1 +/
    Это конечно интересно, но где кочать готовые .apk или .exe чтоб в 2 клика все работало.
     
     
  • 2.11, VINRARUS (ok), 21:08, 14/01/2019 [^] [ответить]    [к модератору]  
  • +1 +/
    На торенте.
     
  • 1.6, Аноним (6), 16:36, 14/01/2019 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    10 лет назад был худшим из распознавателей. Даже GOCR лучше. Не говоря уж о tesseract, cuneiform и коммерческих системах.

    Зачем о нём вспомнили?

     
  • 1.7, Аноним (-), 17:49, 14/01/2019 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    Чем щас в Linux распознавать тексты? Есть аналог FineReader'а?
     
     
  • 2.9, Аноним (6), 18:12, 14/01/2019 [^] [ответить]    [к модератору]  
  • +/
    Был GUI к cuneiform. Без таблиц. Tesseract допилили, вроде, тоже без таблиц.

    Несколько оффтопичных программ хорошо работали под Вайном, включая FineReader и ReadIris.

     
  • 2.10, KonstantinB (ok), 20:02, 14/01/2019 [^] [ответить]    [к модератору]  
  • +/
    Есть Finereader Engine для linux, но цены там какие-то совсем неприличные.

    Современный tesseract неплох, но под кириллицу требует тренировки (можно попробовать погуглить готовые модели).

     
     
  • 3.19, Аноним (19), 23:32, 14/01/2019 [^] [ответить]    [к модератору]  
  • +1 +/
    Т.е. двигло за бабло они осилили, а морду нарисовать - нема? Уже вижу как домашний пользователь ковыряется с этим движком...
     
  • 2.14, Молчуны (?), 21:28, 14/01/2019 [^] [ответить]    [к модератору]  
  • +1 +/
    YAGF — программа, предоставляющая графический интерфейс пользователя для систем оптического распознавания символов CuneiForm и Tesseract.
     
  • 2.20, Аноним (20), 00:49, 15/01/2019 [^] [ответить]    [к модератору]  
  • +/
    Есть Wine.
     
  • 1.8, Аноним (8), 17:59, 14/01/2019 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    tesseract и гуи морда к нему
     
     
  • 2.15, Enter Your Name (?), 23:08, 14/01/2019 [^] [ответить]    [к модератору]  
  • +4 +/
    "В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0) осуществляется с помощью дополнительных модулей."

    А чего в виде модулей, а не в базовой комплектации? И как понять развивается ли этот модуль или давно забили на него? Насколько хорошо распознается русские тексты и шрифты в Tesseract по сравнению с Finereader?

     
     
  • 3.25, рпрп (?), 08:19, 15/01/2019 [^] [ответить]    [к модератору]  
  • +/
    распознает более менее, но на выходе plain text
     
  • 1.12, Аноним (12), 21:11, 14/01/2019 [ответить] [показать ветку] [···]    [к модератору]  
  • +1 +/
    > Передаваемые для распознавания изображения должны быть в форматах pbm, pgm или ppm.

    Это шутка такая ?

     
     
  • 2.16, Alexey (??), 23:17, 14/01/2019 [^] [ответить]    [к модератору]  
  • +2 +/
    Ты чо, самые распространенные графформаты ... среди рептилоидов
     
  • 1.17, Ponchik (?), 23:19, 14/01/2019 [ответить] [показать ветку] [···]    [к модератору]  
  • +10 +/
    Википедия показывает 5 основных СПО систем OCR:

    1. CuneiForm

    2. GOCR

    3. Ocrad

    4. OCRopus

    5. Tesseract

    Причем если 1 и 5 вроде как живые и шевелятся, то про 2 и 4 вообще непонятно, а 3 (тот что из новости) вроде ожившего мертвеца и распознает фигово.

    Если кто-то может вкратце рассказать по каждой из 5 - был бы признателен (и не я один).


    Так же есть 2 морды:

    1. OCRFeeder (на GTK), последняя версия 2014 год

    2. YAGF (на Qt), последняя версия 2015 год

    Как видим, на GUI забили большой и толстый. Хороший GUI никому не нужен. Ну что могу сказать, с такой философией линукс на десктопе еще не скоро освоится. Не будет пользователь крaснoглaзить в консоли, хотя лично мне и консоль сойдет, лишь бы оно нормально распознавало. Но мало кто станет таким заниматься, это факт. Не жалуюсь, просто высказался по теме.

     
     
  • 2.18, Виталий (??), 23:29, 14/01/2019 [^] [ответить]    [к модератору]  
  • +4 +/
    > CuneiForm
    > Последняя версия 1.1.0 (19 апреля 2011)

    Настораживает. Из живых и активных я так понял только Tesseract от гугла. Небось уже зондов напихали или напихают, или сделают зависимым от онлайна/нейронки. :(

     
  • 2.22, AndrewR (?), 06:40, 15/01/2019 [^] [ответить]    [к модератору]  
  • +/
    https://github.com/manisandro/gImageReader

    "gImageReader is a simple Gtk/Qt front-end to tesseract-ocr." (gtk3/qt5)

     
  • 2.30, Аноним (6), 15:04, 15/01/2019 [^] [ответить]     [к модератору]  
  • +/
    GOCR давно пригоден для распознавания английской капчи, но расширять его нереаль... весь текст скрыт [показать]
     
  • 2.34, Gannet (ok), 21:30, 16/01/2019 [^] [ответить]    [к модератору]  
  • +/
    >1. CuneiForm

    Да, по степени говняности качества ПО, оно действительно на первом месте.

     
  • 1.23, Адекват (ok), 07:18, 15/01/2019 [ответить] [показать ветку] [···]     [к модератору]  
  • –8 +/
    Мне кажется это как раз тот случай, который показывает почему софт бывает платны... весь текст скрыт [показать]
     
     
  • 2.26, рпрп (?), 08:25, 15/01/2019 [^] [ответить]    [к модератору]  
  • –1 +/
    Если все будет бесплатно, то работать придется всем в 10 раз меньше, но пиво и сериальчики будут только твоего домашнего происхождения. Куда девать свободное время каждый решает по своему, кто-то будет делать софт, кто-то ничего не делать.
    С бесплатным софтом есть хитрый нае**. Бесплатный софт общего назначения, его готов создавать каждый второй, но для решения спец задач сразу ценник космический (либо его нет под линь, что чаще сего бывает).
     
     
  • 3.35, Gannet (ok), 21:34, 16/01/2019 [^] [ответить]    [к модератору]  
  • +/
    А с платным софтом нет нет хитрого нае**? Докажи. На примере Шиндошs например. Нет никакого нае**, точно? Ты действительно в это веришь?
     
  • 2.27, mma (?), 11:45, 15/01/2019 [^] [ответить]    [к модератору]  
  • +/
    >Мне кажется это как раз тот случай, который показывает почему софт бывает платным.

    Это тот случай который показывает что бывает софт для эндюзера, а бы бывает для программистов которые интегрирую различный функционал в различные системы. Желание первых получить нахаляву замену платному софту понятно, но нежелание других делать это нахаляву для них еще понятнее.

     
  • 2.33, иисус (?), 11:42, 16/01/2019 [^] [ответить]    [к модератору]  
  • +/
    Господи, вторая половина это прям про меня ;Ж))
     

     Добавить комментарий
    Имя:
    E-Mail:
    Заголовок:
    Текст:


      Закладки на сайте
      Проследить за страницей
    Created 1996-2019 by Maxim Chirkov  
    ДобавитьПоддержатьВебмастеруГИД  
    Hosting by Ihor