<?xml version="1.0" encoding="koi8-r"?>
<rss version="0.91">
<channel>
    <title>OpenForum RSS: Релиз системы распознавания текста Tesseract 4.0</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/115708.html</link>
    <description>Опубликован (https://groups.google.com/forum/#!topic/tesseract-ocr/DgJDXg7ifDQ) релиз системы оптического распознавания текста Tesseract 4.0 (https://github.com/tesseract-ocr/tesseract/), поддерживающей распознавания документов на более чем 100 языках, включая русский, казахский, белорусский  и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML, PDF и TSV. Изначально система была создана в 1985-1995 годы в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты  проекта распространяются (https://github.com/tesseract-ocr/tesseract) под лицензий Apache 2.0.&lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;br&gt;Основные улучшения (https://github.com/tesseract-ocr/tesseract/wiki/ReleaseNotes#tesseract-release-notes-oct-29-2018---v400) в Tesseract 4.0:&lt;br&gt;&lt;br&gt;&lt;br&gt;-  Новый движок распознавания, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM (https://ru.wikipedia.org/wiki/&#037;D0&#037;94&#037;</description>

<item>
    <title>Релиз системы распознавания текста Tesseract 4.0 (t_cirkla)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/115708.html#79</link>
    <pubDate>Tue, 18 Dec 2018 21:51:39 GMT</pubDate>
    <description>&amp;gt; Как оно в сравнении с FineReader? При условии, что сканы хорошо читаемые и вёрстка без изысков.&lt;br&gt;&lt;br&gt;Как? Всё, что не FineReader, до сих пор не умеет сохранять форматирование отсканированного текста.&lt;br&gt;</description>
</item>

<item>
    <title>Релиз системы распознавания текста Tesseract 4.0 (scorry)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/115708.html#78</link>
    <pubDate>Fri, 16 Nov 2018 09:46:13 GMT</pubDate>
    <description>Помню, как ко мне зашёл клиент и увидел на компе приглашение мс-дос 6.2 или 6.22 &amp;#8212; не упомню. Резво попросил записать ему бут-дискетку. Потом жаловался, мол, гадость эта ваша новая дос, не хватает на дискете места под это, под то и во-о-н под то. А 3.3 &amp;#8212; в самый раз, и ещё игрушка-бильярд помещается. Или покер. Снова жеж не упомню. Дискеты-то не мои были.&lt;br&gt;</description>
</item>

<item>
    <title>Релиз системы распознавания текста Tesseract 4.0 (GenuZ)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/115708.html#77</link>
    <pubDate>Thu, 15 Nov 2018 12:56:46 GMT</pubDate>
    <description>Последние несколько файнридеров распознают на странице то, чего там нет. Находят дефекты бумаги, дырки от дыроколов, мелкую рукописную пометку, подчёркивание и прочее. И всё это пытается обратить в печатный текст.&lt;br&gt;И хрен бы с ним, что получается плохо - он делает это в виде &quot;надписей&quot; (читай фрейма с текстом, поверх основного текста). Или они начинают пытаться повторять форматирование 1 в 1. Но получается половина текста в заголовке так, половина эдак. Текст нормально распознаёт, но начинает выдумывать форматирование.&lt;br&gt;Это всё черррртовски сложно потом удаляется, форматируется, приводится в состояние plain-text (так как смешивается текст с мусором) и т.д.&lt;br&gt;&lt;br&gt;Так что я с нетерпением жду, когда тессеракт станет чуточку лучше в мелочах, ибо основной свой функционал он уже умеет достаточно неплохо. Проблема больше даже во внешних gui, которые пор юзабилити надо бы допилить немного.&lt;br&gt;</description>
</item>

<item>
    <title>Релиз системы распознавания текста Tesseract 4.0 (Аноним)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/115708.html#76</link>
    <pubDate>Wed, 07 Nov 2018 10:37:29 GMT</pubDate>
    <description>Это как на скриншоте выше по дереву: https://www.opennet.ru/openforum/vsluhforumID3/115708.html#11&lt;br&gt;</description>
</item>

<item>
    <title>Релиз системы распознавания текста Tesseract 4.0 (neit95)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/115708.html#75</link>
    <pubDate>Sun, 04 Nov 2018 15:48:44 GMT</pubDate>
    <description>По архитектуре она Windows NT, как и более современные Windows&apos;ы.&lt;br&gt;</description>
</item>

<item>
    <title>Релиз системы распознавания текста Tesseract 4.0 (asdasd)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/115708.html#74</link>
    <pubDate>Sat, 03 Nov 2018 17:37:51 GMT</pubDate>
    <description>А заодно более убогие элеваторы процессов, I/O, неадекватный расход оперативки ни на что и неадекватное количество занимаемого места на винчестере.&lt;br&gt;</description>
</item>

<item>
    <title>Релиз системы распознавания текста Tesseract 4.0 (werter)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/115708.html#73</link>
    <pubDate>Sat, 03 Nov 2018 15:45:14 GMT</pubDate>
    <description>OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched&lt;br&gt;https://github.com/jbarlow83/OCRmyPDF&lt;br&gt;</description>
</item>

<item>
    <title>Релиз системы распознавания текста Tesseract 4.0 (Led)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/115708.html#71</link>
    <pubDate>Fri, 02 Nov 2018 21:40:51 GMT</pubDate>
    <description>&amp;gt; смесь русского и английского&lt;br&gt;&lt;br&gt;Это как - английский со скрепами?&lt;br&gt;</description>
</item>

<item>
    <title>Релиз системы распознавания текста Tesseract 4.0 (Ю.Т.)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/115708.html#68</link>
    <pubDate>Fri, 02 Nov 2018 19:13:07 GMT</pubDate>
    <description>&amp;gt; FineReader 4 (с другими не работал почти) умел объединять языки в любых &lt;br&gt;&amp;gt; комбинациях. И распознавало нормально. В чём проблема для Тессеракта? (Вопрос не &lt;br&gt;&amp;gt; риторический, серьёзно хочу понять, какие есть принципиальные отличия.) &lt;br&gt;&lt;br&gt;Давно я очень работал с ФР, но помню, что и он путался в многоязычном тексте. Тессеракт умеет обрабатывать многоязычный, но сбивается в случаях слов, допускающих разл. толкования. Делу помогло бы наличие словарной проверки (о которой далее была речь) или, скажем, произвольного указания стат. весов для выбора в таких случаях, но этого то ли нет, то ли готового нет.&lt;br&gt;&lt;br&gt;А вообще Тессеракт 4-й серии это приятнейшее открытие в СПО последних двух с лишним лет. Изрядно помогает в работе.&lt;br&gt;</description>
</item>

</channel>
</rss>
