The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от opennews on 04-Окт-10, 19:35 
После трех лет разработки выпущен (http://groups.google.com/group/tesseract-ocr/msg/f240b6c7c5a...) релиз системы оптического распознавания текста Tesseract 3.0 (http://code.google.com/p/tesseract-ocr/). Одним из самых важных улучшений в новой версии стала поддержка распознавание документов на русском (http://code.google.com/p/tesseract-ocr/downloads/detail?name...) и украинском (http://code.google.com/p/tesseract-ocr/downloads/detail?name...) языках. Изначально система была создана в 1985-1995 годы в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google.

Основные улучшения Tesseract 3.0:


-  Проведена подготовка кода к использованию в многопоточных программах;
-  Добавлен модуль анализа структуры документа;
-  Добавлена поддержка вывода результатов в формате HOCR;
-  В качестве основного средства для ввода/вывода, обработки и...

URL: http://groups.google.com/group/tesseract-ocr/msg/f240b6c7c5a...
Новость: http://www.opennet.ru/opennews/art.shtml?num=28169

Высказать мнение | Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по ответам | RSS]

1. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от gregg128 email on 04-Окт-10, 19:35 
Спасибо за редактуру. Я не программер, поэтому неясные мне куски ченджлога просто не стал переводить. Главное в такой новости - heads up :)
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

2. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от gregg128 email on 04-Окт-10, 19:39 
Кто первый соберёт .deb - тому преогромное моё спасибо :)
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

3. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от анонимиус on 04-Окт-10, 19:56 
Оно лучше cuneiform?
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

4. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  –1 +/
Сообщение от Аноним (??) on 04-Окт-10, 20:14 
>Оно лучше cuneiform?

зная последний, если какая-либо программа вообще умеет распознавать тексты, то она это уже делает лучше cuneiform

Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

5. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от аноним on 04-Окт-10, 20:21 
не преувеличивайте. Cuneiform прекрасно распознает, но только на больших разрешениях...
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

6. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от Аноним (??) on 04-Окт-10, 20:26 
Ага, особенно четкое сканирование где каждая буква в пол монитора умудряется перебирать половину букв, со знаками препинания вообще беда, дай бог если восклицательный знак будет скобкой или наоборот
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

7. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от gregg128 email on 04-Окт-10, 20:40 
Вы что-то не так делаете. У меня этот самый cuneiform прекрасно распознавал сканированный текст в большом разрешении. Жаль, что туда нельзя добавить свой язык (мне нужны яти-еры-фиты-ижицы).

Да, если вы недовольны качеством распознавания - вперёд, коды открыты.

Можете начать с помощи отважному гражданину, который взялся за рефакторинг: https://code.launchpad.net/~serge-uliss/cuneiform-linux/refa...

Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

8. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от paulus (ok) on 04-Окт-10, 20:46 
при 600dpi распознает и знаки препинания...
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

9. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от paulus (ok) on 04-Окт-10, 20:48 
> Оно лучше cuneiform?

кто-нибудь Tesseract вообще хоть раз использовал?

Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

10. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +2 +/
Сообщение от Frank email(??) on 04-Окт-10, 21:58 
Русский это хорошо, а украинский - вообще прекрасно!
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

11. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от KERNEL_PANIC (ok) on 04-Окт-10, 22:44 
А он консольный или с мордой? Не, не то чтоб мне была разница, просто в библиотеку блондинкам надо, а их фиг за консоль посадишь:)
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

12. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +2 +/
Сообщение от Sw00p aka Jerom on 04-Окт-10, 23:14 
года три назад использовал для борьбы с графическим спамом
вроде ничего надо было обучать
а после ваще перешёл на оцр обвчный и выкинул нах (сменил политику борьбы)
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

13. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +1 +/
Сообщение от bircoph on 04-Окт-10, 23:54 
Это, по большому счёту, библиотека -- там даже консольного интерфейса нет.
Нет распознования колонок -- так что tesseract без серьёзной доработки мирно отдыхает по сравнению с cuneiform.
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

14. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от Malky on 05-Окт-10, 01:19 
Собрал я его, работает, даже gscan2pdf согласился с третьей версией работать. А вот язык кроме английского никакой выбрать не получается. При указании любого из прилагаемых языковых файлов  выдает ошибку вида "Error openning data file /usr/local/share/tessdata/russian.traineddata"
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

15. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +1 +/
Сообщение от Аноним (??) on 05-Окт-10, 03:53 
Please check out the ReadMe before going to Downloads as you need more than one file. Even the windows executables tarball is incomplete as language files are required.

Перевести? :-)

Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

16. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от Malky on 05-Окт-10, 09:19 
Ну и что вы хотели этим сказать? readme я прочитал, но четкого указания не нашел касательно прикручивания языков. Лишь только то, что должны быть помещены в tassdata. Пробовал и при сборке их помещать в папку tessdata в каталоге и исходниками и после сборки... Если разобрались, то подскажите...
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

17. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от evkogan on 05-Окт-10, 09:31 
Хорошо конечно что распознает русский, давно пора.
Вот только планируется ли у него распознавание оформления?
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

18. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от evkogan on 05-Окт-10, 09:33 
Linux только дома.
Поэкспериментировать смогу только завтра вечером
А на винде так все просто кладете их в эту папочку и все работает
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

19. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от Sw00p aka Jerom on 05-Окт-10, 10:06 
дык он ещё три года тому назад русский распозновал - просто надо было его этому обучать
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

20. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от Any_Key on 05-Окт-10, 11:44 
>> Оно лучше cuneiform?
> кто-нибудь Tesseract вообще хоть раз использовал?

Угу картинки (с текстом) в текст для индексирования перегонял.
Работает.
Только приходилось из SVN брать.

Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

21. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от Malky on 05-Окт-10, 11:57 
Все, разобрался) Тормозил я, указывая полное название языка вместо трех буквенного сокращения. А вот gscan2pdf с новым tesseract работает, но выбрать языки не дает...
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

22. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от Аноним (??) on 05-Окт-10, 15:21 
ищу cuneiform скомпиленнй под Виндоуз.
Подскажите как в пакетном режиме распознавать в виндоуз ?
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

23. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от balou on 05-Окт-10, 15:27 
они друг-друга стоят. одна система не умеет распознавать смешанные тексты, а другая плюёт не только на структуру документа но и текста как такового (легко меняет местами слова и строки)
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

24. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от Michael Shigorin email(ok) on 05-Окт-10, 17:37 
Надо не "особенно чёткое", а оптимальное для задачи, дядя.  Смутно припоминается, что в р-не 100..300 dpi, но никак не 1200.
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

25. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от AlexYeCu on 05-Окт-10, 18:30 
А мне cuneiform понравился. Заполненные текстом страницы распознаёт неплохо, что примечательно — с выводом в html результат куда лучше, чем с выводом в txt (может там какие-то скрытые от пользователя опции используются?).
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

26. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от AlexYeCu on 05-Окт-10, 18:34 
А как из этого rpm собрать? Тот *.spec, что в комплекте, написан вообще непонятно под что — пути другие, файлы языковых данных другие и т.д. Причём ему почему-то надо попытаться открыть *.traineddata.gz как тарбол, хотя весь спек перерыл (там особо и ничего перерывать) — нет указаний на это.
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

27. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от gregg128 email on 05-Окт-10, 19:26 
Не исключено, что спек вообще от версии 2.04 (если не более старшей)
У них форумы открыты, спросите.
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

28. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от Sw00p aka Jerom on 05-Окт-10, 23:28 
Из сорцов нормально ставится
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

29. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от Заморский Гость on 06-Окт-10, 01:02 
Скачай с сайта cuneiform и будет тебе щасье.
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

30. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от Levan on 10-Окт-10, 00:27 
Tesseract 3.0 у меня колонки гораздо точнее распознает чем само распознование слов, иногда даже лучше abbyy!
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

31. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от aburdo (ok) on 12-Окт-10, 13:02 
Есть ли возможность распознавать не по одному файлу, а сразу список картинок?
У меня около 1000 tif-ов.
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

32. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от HJ (??) on 20-Окт-10, 13:41 
http://www.cuneiform.ru/downloads/index.html
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

33. "Релиз системы распознавания текста Tesseract 3.0 с поддержко..."  +/
Сообщение от gregg128 (ok) on 29-Окт-10, 22:31 
А баш и прочее юникс-счастье вам неведомы ? Делается в одну строчку.
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору


Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру