The OpenNET Project / Index page

[ новости/++ | форум | wiki | теги | ]

20.10.2016 11:14  Выпуск spaCy 1.0, библиотеки для обработки информации на естественном языке

Компания Explosion AI, специализирующаяся на разработках, связанных с искусственным интеллектом и машинным обучением, представила первый значительный выпуск свободной библиотеки spaCy, в которой воплощены в рабочий код результаты последних достижений в области распознавания текста на естественном языке (NLP, Natural Language Processing). Библиотека написана на языке Cython (расширение Python, позволяющее использовать вставки на языке Си), совместима с CPython 2.6+/3.3+ на платформах Unix/Linux, macOS и Windows, и распространяется под лицензией MIT. Языковые модели пока подготовлены только для английского и немецкого языков (размер каждой модели около 500Мб).

Библиотека рассчитана на применение в конечных продуктах, снабжена исчерпывающей документацией и предоставляет целостный API, для которого гарантируется обратная совместимость. Большинство имеющихся разработок в области NLP представляют собой исследовательские проекты, реализующие сразу несколько альтернативных алгоритмов, но не готовые для поставки конечному потребителю. В spaCy обеспечена поддержка только одного алгоритма, демонстрирующего наибольшую эффективность. В случае появления более эффективного алгоритма библиотека будет переведена на него, но этот перевод останется незаметным для завязанных на библиотеку приложений и не повлияет на API. Особенностью spaCy также является архитектура, рассчитанная на обработку документов целиком, без предварительной обработки в препроцессорах, разбивающих документ на фразы.

По производительности spaCy значительно превосходит проекты ClearNLP, CoreNLP, MATE и Turbo, и тратит на обработку документа менее 50 мс. Ценой высокой скорости является незначительное снижение точности - spaCy отстаёт по точности на 2% от наиболее эффективной альтернативной релизации, но работает на порядок быстрее. Например, spaCy при точности в 91.8% выполняет обработку 13963 слов в секунду, в то время как библиотека MATE при точности в 92.5% обрабатывает 550 слов в секунду, а библиотека Turbo при точности в 92.4% обрабатывает 349 слов в секунду.

Основные возможности spaCy:

  • Разбор зависимостей на основе меток (точность 91.8% в тесте OntoNotes 5);
  • Распознавание именованных сущностей (точность 82.6% в тесте OntoNotes 5);
  • Пометка частей речи (точность 87.1% в тесте OntoNotes 5);
  • Легко используемые векторы расстановки слов;
  • Присвоение всем строкам цифровых идентификаторов;
  • Экспорт массивов данных для обработки в библиотеке NumPy;
  • Сохранение выравнивания как в исходной строке, что упрощает расчёт разметки;
  • Наличие простых орфографических функций;
  • Отсутствие препроцессора, spaCy обрабатывает текст как есть;
  • Поддержка подключения механизмов глубинного машинного обучения.


  1. Главная ссылка к новости (https://explosion.ai/blog/spac...)
  2. OpenNews: Facebook открыл модули машинного обучения, использующие GPU для ускорения
  3. OpenNews: Facebook открыл код библиотеки классификации текста fastText
  4. OpenNews: Microsoft опубликовал на GitHub систему машинного обучения CNTK
  5. OpenNews: Baidu открыл наработки в области машинного обучения
  6. OpenNews: Yahoo открыл модель машинного обучения для выявления неприличных изображений
Лицензия: CC-BY
Тип: Программы
Ключевые слова: nlp, spacy, ai, text
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение Ajax/Линейный | Раскрыть все сообщения | RSS
 
  • 1.1, Анонимус_б6_выпуск_3 (?), 12:31, 20/10/2016 [ответить] [показать ветку] [···]    [к модератору]
  • +/
    поясните простыми словами человеку, далекому от умных слов в тексте новости, для чего прикладного это будет применяться?
     
     
  • 2.2, A.Stahl (ok), 12:41, 20/10/2016 [^] [ответить]    [к модератору]
  • +7 +/
    Ну, например, можно будет написать спамбота, который будет так спамить, что хрен какой фильтр сработает.
    А ещё можно написать такой спамфильтр, что как бы ты ни спамил, то всё равно тебя вычислят.
    А ещё можно будет сделать бота, который будет обижаться если ты будешь его оскорблять.
    А ещё можно сделать бота, который и тебя сможет оскорбить.

    Но самое главное его применение -- управление корчевателем.

     
     
  • 3.5, Аноним (5), 14:15, 20/10/2016 [^] [ответить]     [к модератору]
  • –1 +/
    Для того, чтобы сделать бота, который сможет кого-нибудь оскорбить никакие лингв... весь текст скрыт [показать]
     
  • 3.10, Какаянахренразница (ok), 15:09, 20/10/2016 [^] [ответить]    [к модератору]  
  • +7 +/
    > Ну, например, можно будет написать спамбота, который будет так спамить,
    > что хрен какой фильтр сработает.
    > А ещё можно написать такой спамфильтр, что как бы ты ни спамил, то всё
    > равно тебя вычислят.

    А может ли бог создать камень, который сам не сможет поднять? Если на этом софте написать спамбота и спамфильтр, а потом стравить их, то кто победит?

     
     
  • 4.13, A.Stahl (ok), 15:37, 20/10/2016 [^] [ответить]     [к модератору]  
  • +5 +/
    Смотря что за бог Если ты про того, который всемогущий, то конечно же может Он... весь текст скрыт [показать]
     
     
  • 5.17, Какаянахренразница (ok), 16:28, 20/10/2016 [^] [ответить]     [к модератору]  
  • +2 +/
    Сможет создать или сможет поднять - Потому что принципиально возможны лишь дв... весь текст скрыт [показать]
     
     
  • 6.19, A.Stahl (ok), 16:35, 20/10/2016 [^] [ответить]    [к модератору]  
  • +/
    >Сможет создать или сможет поднять? :-)

    И то и другое. Просто по определению всемогущества.
    >Потому что принципиально возможны лишь два выхода

    Не вижу отличия от дуэли человек-человек.

     
     
  • 7.20, Какаянахренразница (ok), 16:46, 20/10/2016 [^] [ответить]     [к модератору]  
  • +/
    Правда Отличие в том, что игра продавец-покупатель не является игрой с нулевым ... весь текст скрыт [показать]
     
     
  • 8.21, A.Stahl (ok), 17:21, 20/10/2016 [^] [ответить]     [к модератору]  
  • +/
    Ок Пусть Но при борьбе фильтров может сначала победить один, а потом другой В... весь текст скрыт [показать]
     
     
  • 9.24, Какаянахренразница (ok), 18:33, 20/10/2016 [^] [ответить]     [к модератору]  
  • +/
    Ага, всемогущий бог сначала создаст неподъёмно огромный камень, а потом вспомнит... весь текст скрыт [показать]
     
     
  • 10.26, A.Stahl (ok), 19:46, 20/10/2016 [^] [ответить]     [к модератору]  
  • +2 +/
    Нет, он просто всемогущий И точка Да, он может создать слишком тяжёлый для себ... весь текст скрыт [показать]
     
     
  • 11.31, Я. Р. Ош (?), 00:33, 21/10/2016 [^] [ответить]    [к модератору]  
  • –2 +/
    >Он может универсум на квантор всеобщности натянуть.

    незавидная у тебя судьба

     
  • 11.37, Какаянахренразница (ok), 03:21, 21/10/2016 [^] [ответить]    [к модератору]  
  • –2 +/
    > Нет, он просто всемогущий. И точка.

    Ты чё... это ... верующий, штоле??? Я думал, тут только Шигорин такой, местами нелогичный.

     
     
  • 12.38, A.Stahl (ok), 08:18, 21/10/2016 [^] [ответить]    [к модератору]  
  • +1 +/
    Верующий? Ты бы извинился...
     
     
  • 13.39, Какаянахренразница (ok), 10:52, 21/10/2016 [^] [ответить]    [к модератору]  
  • +/
    Я обознался? Прошу прощения. Это тот редкий случай, когда я рад, что ошибся.
     
  • 6.43, 1111 (??), 02:03, 22/10/2016 [^] [ответить]     [к модератору]  
  • –1 +/
    Сначала сможет его создать, затем сможет его поднять Например можно создать ка... весь текст скрыт [показать]
     
     
  • 7.47, Павел Самсонов (?), 11:42, 24/10/2016 [^] [ответить]     [к модератору]  
  • –1 +/
    Я не верю, что Бог творил материю Сначала Бог сотворил небо и землю, земля же ... весь текст скрыт [показать]
     
     
  • 8.49, J.L. (?), 10:51, 15/11/2016 [^] [ответить]    [к модератору]  
  • +/
    >> Не может никто творить никаких камней и никаких материй...

    ваши данные устарели, камни и материю могут даже простые смертные физики с помощью ускорителя творить из "ничего"

     
  • 5.18, KBAKEP (ok), 16:31, 20/10/2016 [^] [ответить]    [к модератору]  
  • +3 +/
    Какой же он всемогущий, если не может поднять созданный собой же камень?
     
     
  • 6.22, A.Stahl (ok), 17:44, 20/10/2016 [^] [ответить]    [к модератору]  
  • +2 +/
    Почему не может? Может. Он же всемогущий.
     
  • 6.23, Аноним (-), 17:57, 20/10/2016 [^] [ответить]    [к модератору]  
  • +/
    Ну какой же он всемогущий если даже не может создать камень, который невозможно поднять?
     
     
  • 7.25, synweap (ok), 19:44, 20/10/2016 [^] [ответить]     [к модератору]  
  • +1 +/
    Решение этой философской проблемы 1 Всемогущим Бог является постольку, посколь... весь текст скрыт [показать]
     
     
  • 8.27, rshadow (ok), 20:02, 20/10/2016 [^] [ответить]    [к модератору]  
  • +1 +/
    Есть еще ответ "попроще": да, и он его создал - это человек.
     
  • 8.33, Какаянахренразница (ok), 02:07, 21/10/2016 [^] [ответить]    [к модератору]  
  • +1 +/
    Это не философская проблема. Это иллюстрация фундаментального противоречия в чьей-то там теории множеств.
     
  • 8.45, BeRUS (ok), 10:36, 22/10/2016 [^] [ответить]    [к модератору]  
  • +/
    Сорри))
     
  • 7.50, J.L. (?), 10:56, 15/11/2016 [^] [ответить]     [к модератору]  
  • +/
    вы не понимаете как это работает 0 бог в состоянии всемогущества 1 бог выбира... весь текст скрыт [показать]
     
  • 4.28, anonymous (??), 00:14, 21/10/2016 [^] [ответить]    [к модератору]  
  • +/
    > А может ли бог создать камень, который сам не сможет поднять?

    А сможешь ли ты вообразить в своём сознании такой камень, который не поместится в твоё сознание?

     
     
  • 5.34, Какаянахренразница (ok), 02:09, 21/10/2016 [^] [ответить]    [к модератору]  
  • +3 +/
    >> А может ли бог создать камень, который сам не сможет поднять?
    > А сможешь ли ты вообразить в своём сознании такой камень, который не
    > поместится в твоё сознание?

    А свопить можно?

     
     
  • 6.41, Led (ok), 21:58, 21/10/2016 [^] [ответить]     [к модератору]  
  • +/
    Нет Но оверкоммит разрешён ... весь текст скрыт [показать]
     
  • 5.42, Ordu (ok), 23:07, 21/10/2016 [^] [ответить]    [к модератору]  
  • +/
    С камнем никто не пытался, а вот с астрономическими явлениями, в частности со звёздами такое бывает. Кто-то из астрономов, описывая звёзды гиганты, сказал, что-то в стиле "представь себе самую большую звезду, которую можешь представить... так вот, супергигант ещё больше".

    На ютубе есть видяшка: https://youtu.be/HEheh1BH34Q

    И каждый раз разглядывая её, я очень двояко себя чувствую, как будто я представил себе размеры VY Большого Пса, и при этом не смог представить себе размеры VY Большого Пса. Одновременно и да, и нет. И если ты знаешь ответ на свой вопрос, то мне было бы интересно его услышать.

     
  • 3.14, ПавелС (ok), 15:39, 20/10/2016 [^] [ответить]    [к модератору]  
  • –1 +/
    > Ну, например, можно будет написать спамбота, который будет так спамить, что хрен
    > какой фильтр сработает.
    > А ещё можно написать такой спамфильтр, что как бы ты ни спамил,
    > то всё равно тебя вычислят.
    > А ещё можно будет сделать бота, который будет обижаться если ты будешь
    > его оскорблять.
    > А ещё можно сделать бота, который и тебя сможет оскорбить.
    > Но самое главное его применение -- управление корчевателем.

    Какое то кусание себя за хвост с этими секюрити и ИИ. Лет 15 назад когда я начинал с компами всё было мирнее - обеспечивает система приемлемый уровень безопасности - ну хорошо.

     
  • 2.3, Александр (??), 12:58, 20/10/2016 [^] [ответить]    [к модератору]  
  • +1 +/
    Всё предельно просто - для слежки за вами.
    И за другими людьми.
    Я серьёзно. Вплоть до разбора текстов переведённых из записанных телефонных разговоров (а их ой как много - нелегально хранящихся, да и легально прибавятся сейчас ---- см. "законопроект Яровой" "пакет Яровой").
    Такчто, обсуждаемая библиотечка прикрученная к действующим системам даст колоссальный эффект по противозаконному использованию данных о людях против них же.
    1.В тюрьмах не все сидят справедливо.
    2.О взятых на своё имя кредитах и ипотеках тоже некоторые люди узнают случайно, и уже во время предъявления судебных претензий банком(ами).
    3... ... продолжать?
     
     
  • 3.4, тоже Аноним (ok), 14:10, 20/10/2016 [^] [ответить]    [к модератору]  
  • +2 +/
    Пакет Яровой преследует ровно две цели:
    1) завинчивание гаек в Интернете и коммуникациях вокруг него (то есть практически всех современных средствах связи)
    2) попил бюджета на внедрении технологической базы под этот идиотский сбор петабайтов неактуальной информации.

    Разобраться в этих петабайтах никакие искусственные интеллекты все равно не помогут. Ибо это классический "демон второго рода", польза от которого описана классиком еще в прошлом веке.

     
     
  • 4.8, Mail (?), 14:51, 20/10/2016 [^] [ответить]    [к модератору]  
  • +1 +/
    Зачем в петабайтах? кода нужен конкретный человечек там много-много меньше.

    О выборочном "применении закона" слышали?

     
     
  • 5.9, тоже Аноним (ok), 14:56, 20/10/2016 [^] [ответить]    [к модератору]  
  • +/
    Ну, расскажите, что мешает организовать "колпак" для конкретного человека без всего этого цирка с датацентрами. Разве что Конституция, но этим пакетом на нее уже положили...
     
  • 3.15, НиколайИванович (?), 16:03, 20/10/2016 [^] [ответить]    [к модератору]  
  • +3 +/
    Разработчики -- австралиец и немка, языки -- английский и немецкий. Но использовать это дело будут, понятно, для реализации "пакета Яровой"
     
     
  • 4.32, Вареник (?), 01:21, 21/10/2016 [^] [ответить]    [к модератору]  
  • –1 +/
    Прикрутят. На этот раздел IT как раз денег не жалеют.
     
  • 1.7, adolfus (ok), 14:28, 20/10/2016 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    Ничего нового. Двадцать лет назад в IBM OS/2 4.0 Merlin была обучаемая распознавалка голоса, кажется Voice Type она называлась. Даже в коробочной настройке она позволяла отдавать голосом команды программам, которые имели пулл-даун и/или контекстное меню. По-английски, разумеется. Работало достаточно четко даже с моим английским произношением. Говоришь ему слитно "файл оупен" -- открывает диалог ввода имени файла, говоришьс паузой "файл" ... "оупен" -- открывает сначала пуллдаун File, потом сдвигает курсор на Open и открывает диалог. Вначале кое-какие косяки были, но потом система подстраиваласть под особенности произношения.
     
     
  • 2.16, Аноним (-), 16:24, 20/10/2016 [^] [ответить]     [к модератору]  
  • +2 +/
    А это без подстройки, сразу работает И не небольшое число ключевых слов, а полн... весь текст скрыт [показать]
     
     
  • 3.40, Аноним (-), 12:56, 21/10/2016 [^] [ответить]    [к модератору]  
  • –1 +/
    А еще была софтина с SoundBlaster AWE32.
     
  • 1.35, Аноним (-), 02:36, 21/10/2016 [ответить] [показать ветку] [···]    [к модератору]  
  • –1 +/
    А можно на Си или на Python? а не на то и другое... (
     
  • 1.36, Аноним (-), 02:42, 21/10/2016 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    ) Если на их сайте пролистать вниз - SPACY IS TRUSTED BY -- https://foxtype.com/ -- интересно выходит, если посмотреть с этой точки зрения - этож ее к почтовику прикрутить можно )
     
  • 1.44, BeRUS (ok), 10:32, 22/10/2016 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    А то что в дройде для распознавания речи используется, не из этой ветки?
     
  • 1.46, Аноним (-), 10:57, 24/10/2016 [ответить] [показать ветку] [···]    [к модератору]  
  • +1 +/
    смесь бидона и сей для "обработки на естественном языке" писать? это шедеврально.
    про логическое программирование авторы не слышали.
    ну или не осилили соотв ЯП, возможно.
     
     
  • 2.48, Anonymissimus (?), 06:55, 25/10/2016 [^] [ответить]    [к модератору]  
  • +/
    Если ты такой умный, то где твоя реализация?
     

     Добавить комментарий
    Имя:
    E-Mail:
    Заголовок:
    Текст:


      Закладки на сайте
      Проследить за страницей
    Created 1996-2018 by Maxim Chirkov  
    ДобавитьПоддержатьВебмастеруГИД  
    Hosting by Ihor