The OpenNET Project / Index page

[ новости/++ | форум | wiki | теги ]

23.07.2010 12:54  WatchOCR - LiveCD для развертывания серверов распознавания отсканированных документов

Началось бета-тестирование проекта WatchOCR, в рамках которого подготовлен основанный на Knoppix LiveCD-дистрибутив для быстрой организации работы сервера для распознавания и конвертации отсканированных документов. Контроль за прогрессом выполнения операций и настройка параметров дистрибутива осуществляется через web-интерфейс. Размер iso-образа 654 Мб.

Дистрибутив очень прост в настройке и позволяет с минимальными усилиями (достаточно просто загрузить диск и настроить сетевое соединение) создать сервер, преобразующий PDF с изображениями отсканированных страниц в PDF с данными в текстовом представлении, для которых можно выполнять операции поиска внутри документа. После загрузки в web-интерфейсе определяются две директории - одна для входящих и одна для преобразованных документов. Вместо локальных директорий поддерживается монтирование удаленных Windows ресурсов. Пользователю достаточно скопировать PDF или изображение во входящую директорию, после чего дистрибутив проведет распознавание и поместит документ с распознанным текстом во вторую директорию.

Для распознавания в дистрибутиве используется OCR Cuneiform, для разбора и формирования PDF - ExactImage, для навигации по сетевым SMB-разделам - xsmbrowser. Для совмещения OCR, инструментов для работы с PDF и общей организации процесса обработки задействован собственный набор скриптов, который, наряду с кодом web-интерфейса, распространяется в рамках лицензии GPL.

  1. Главная ссылка к новости (http://linux.slashdot.org/stor...)
  2. OpenNews: Первый стабильный релиз системы распознавания текстов Cuneiform 1.0
Лицензия: CC-BY
Тип: Программы
Ключевые слова: ocr, pdf, text, convert, Cuneiform
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение Линейный вид | Ajax | Показать все | RSS
 
  • 1.1, Аноним, 13:28, 23/07/2010 [ответить] [смотреть все]
  • +/
    IMHO, именно тот пример когда создание нового дистрибутива на 100 оправдано Да... весь текст скрыт [показать]
     
     
  • 2.2, Аноним, 13:39, 23/07/2010 [^] [ответить] [смотреть все]  
  • –1 +/
    угу
    вот только для сканирования она сканировать не умеет
     
  • 1.3, Аноним, 13:53, 23/07/2010 [ответить] [смотреть все]  
  • +/
    как там с кириллицей дела обстоят?
     
     
  • 2.6, Михаил, 14:32, 23/07/2010 [^] [ответить] [смотреть все]  
  • +/
    С кириллицей, судя по движку, все в порядке. А вот что оно со сложным форматированием и таблицами сделает -- вопрос. Виндовый кунейформ ни чего хорошего с таблиц не отдавал, только с простыней текста на отлично справлялся.
     
     
  • 3.12, DocMan, 16:43, 23/07/2010 [^] [ответить] [смотреть все]  
  • +1 +/
    Суть в том, что PDF (image) преобразуется в PDF (image + текст "поверх" растрового) для возможности полнотекстового поиска. В данном случае распознавание сложной верстки документов не так важно, ИМХО.
     
  • 3.15, DocMan, 13:36, 25/07/2010 [^] [ответить] [смотреть все]  
  • +/
    Проверил работу WatchOCR "из коробки" на выборке документов (кириллица/латиница) с различного уровня сложностью верстки (от двухколоночного текста, до форм счетов-фактур из 1С). На выходе, как и следовало, появляются PDF в том же виде, что и оригинальный скан. Текст можно выделять и копировать. С кириллицей (с предустановленными настройками дистрибутива) проблемы, Cuneiform не определяет ее, выдавая "06'+ecTBQ C QJPaHRVBHHOQNT B8TBTBBHHOC" вместо "Общество с ограниченной ответственностью" (пример). С распознаванием латиницы тоже не все радужно. Но все это решаемо, интересно было, как оно работает при поставка "как есть". Надеемся, что проекты Cuneiform и WatchOCR будут развиваться.

    P.S. А по поводу "дистр это жирно, нужны скрипты установки", автор над этим работает, во всяком случае .deb пакет на оффсайте есть.

     
  • 2.7, KERNEL_PANIC, 14:33, 23/07/2010 [^] [ответить] [смотреть все]  
  • +/
    Вроде как все пучком. Нужно только относительно хорошее разрешение скана и что бы не было художественных шрифтов.
     
  • 1.4, KERNEL_PANIC, 13:54, 23/07/2010 [ответить] [смотреть все]  
  • +/
    При наличии прямых рук и холодной головы это можно на любом дистре сделать.
     
     
  • 2.8, User294, 14:45, 23/07/2010 [^] [ответить] [смотреть все]  
  • +/
    >При наличии прямых рук и холодной головы это можно на любом дистре сделать.

    Да, когда встает вопрос "вам шашечки или ехать" - почему-то вылезает очередной Вася из своего гаража и предлагает собрать вам автомобиль. За всего 2 недели, заметьте. Зато именно такой как вы хотели с точностью до винтика. Вот только если надо было например на самолет - небольшая проблема состоит в том что он две недели ждать не будет.

     
  • 1.5, Анон, 14:04, 23/07/2010 [ответить] [смотреть все]  
  • +1 +/
    Вообще, да, ставить для этого отдельный ос жирновато. Реквестирую готовых скриптов для этих целей.

     
     
  • 2.9, zazik, 14:56, 23/07/2010 [^] [ответить] [смотреть все]  
  • +/
    >Вообще, да, ставить для этого отдельный ос жирновато. Реквестирую готовых скриптов для
    >этих целей.

    Скачай дистр и выпили оттуда.

     
  • 2.11, sHaggY_caT, 16:22, 23/07/2010 [^] [ответить] [смотреть все]  
  • +/
    Можно и на виртуалку...
     
  • 1.10, анонимиус, 15:51, 23/07/2010 [ответить] [смотреть все]  
  • +1 +/
    >Размер iso-образа 654 Мб.

    =O

    >задействован собственный набор скриптов

    Пара строчек на баш?

    Куда катится мир..

     
     
  • 2.13, Аноним, 23:41, 23/07/2010 [^] [ответить] [смотреть все]  
  • +/
    К одной кнопке
     
  • 1.14, ziceptor, 04:19, 24/07/2010 [ответить] [смотреть все]  
  • +/
    Отдельная ОСь.. Баш... Это полезная вещь!
    LiveCD-дистрибутив для быстрой организации работы сервера для распознавания и конвертации отсканированных документов.
     

     Добавить комментарий
    Имя:
    E-Mail:
    Заголовок:
    Текст:


      Закладки на сайте
      Проследить за страницей
    Created 1996-2017 by Maxim Chirkov  
    ДобавитьРекламаВебмастеруГИД  
    Hosting by Ihor