The OpenNET Project / Index page

[ новости/++ | форум | wiki | теги ]

23.08.2016 08:50  Facebook открыл код библиотеки классификации текста fastText

Лаборатория искусственного интеллекта Facebook объявила об открытии исходных текстов библиотеки fastText, предоставляющей средства для классификации текста с использованием методов машинного обучения. Код написан на языке C++ и открыт под лицензией BSD. Библиотека позволяет организовать автоматическое назначение категорий для произвольного текста, на основании предварительно проведённого обучения по наборам текстов с уже известными категориями. Например, fastText может оценить является ли письмо спамом или определить к какой категории относится статья (научная, спорт, финансы, развлечения и т.п.), после обучения по типовым базам спама и тематических статей.

Из достоинств fastText отмечается поддержка различных языков и очень высокая скорость обучения. Например, обучение fastText по базе Yahoo длится всего 5 секунд и обеспечивает точность классификации 72.3%, в то время как char-CNN выполняет эту работу за 1 день при точности 71.2%, а VDCNN за 2 часа при точности 73.4%. Результирующая классификация также выполняется на несколько порядков быстрее существующих аналогов.

Для увеличения производительности работы с большим числом категорий в fastText применяется иерархический классификатор, организующих хранение категорий в древовидной структуре, вместо обычно применяемых плоских моделей. При этом дерево строится с учётом популярности категорий, что позволяет повысить скорость доступа к часто используемым элементам. При тестировании модели, в обучении которой применялась база в 1 миллиард слов и более 300 тысяч категорий, на обучение было потрачено менее 10 минут, а на классификацию выборки из 500 тысяч записей менее 5 минут (около 1700 сопоставлений в секунду) на системе с обычным многоядерным CPU.

  1. Главная ссылка к новости (https://code.facebook.com/post...)
  2. OpenNews: Facebook открыл модули машинного обучения, использующие GPU для ускорения
  3. OpenNews: Открыт код системы машинного обучения TensorFlow, разработанной командой Google Brain
  4. OpenNews: Компания Microsoft открыла код распределённого инструментария машинного обучения DMTK
  5. OpenNews: Компания IBM передала сообществу Apache платформу машинного обучения SystemML
  6. OpenNews: Microsoft опубликовал на GitHub систему машинного обучения CNTK
Лицензия: CC-BY
Тип: Программы
Ключевые слова: ai, fasttext, facebook
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение Линейный вид | Ajax | Показать все | RSS
 
  • 1.1, Аноним, 09:22, 23/08/2016 [ответить] [смотреть все]
  • +8 +/
    Новости на Opennet и Хабре сразу классифицировать
     
     
  • 2.4, rob pike, 09:45, 23/08/2016 [^] [ответить] [смотреть все] [показать ветку]
  • +27 +/
    Главное мудро выбрать классификацию. Для Опеннета подойдет такая
      - "systemd нанес очередное улучшение на радость всему прогрессивному человечеству"
      - "Mozilla продолжает заниматься фигней вместо браузера"
      - "Microsoft открыла код очередного продукта"
      - "вышла новая версия DE X с нескучными обоями"
     
     
  • 3.8, jtad, 10:33, 23/08/2016 [^] [ответить] [смотреть все]
  • +/
    to rob pike: про systemd не согласен, в остальном в точку
     
     
  • 4.10, rob pike, 10:44, 23/08/2016 [^] [ответить] [смотреть все]
  • +6 +/
    Про systemd вы согласны - либо с "нанес", либо с "улучшением".
     
     
  • 5.21, jtad, 11:36, 23/08/2016 [^] [ответить] [смотреть все]
  • +1 +/
    не заметил сарказма :). С улучшением конечно
     
  • 3.19, тоже Аноним, 11:29, 23/08/2016 [^] [ответить] [смотреть все]  
  • +16 +/
    Маловато категорий. Незаслуженно забытые:
    - "кто-то в Canonical решил, что, может быть, в следующем релизе они сделают не так, как в предыдущем, хотя ручаться за это никто не может"
    - "wine исправил очередное множество ошибок для улучшения совместимости с чем попало"
    - "вышла новая версия популярного открытого продукта с неудобопроизносимым названием: перечень изменений без уточнения, что этот продукт вообще делает"
    - "в РФ тоже есть IT! Качайте наш дистрибутив и приезжайте на конференцию в Минск (реклама)"
     
  • 3.34, Аноним, 00:20, 24/08/2016 [^] [ответить] [смотреть все]  
  • +/
    - Facebook открыл код ещё одной библиотеки, являющейся частью Skynet - Компан... весь текст скрыт [показать]
     
  • 3.35, xm, 00:21, 24/08/2016 [^] [ответить] [смотреть все]  
  • +1 +/
    Про systemd нанёс непоправимое очередное улучшение будет точнее и правильнее ... весь текст скрыт [показать]
     
  • 3.42, Аноним, 07:13, 26/08/2016 [^] [ответить] [смотреть все]  
  • +/
    На коменты напустить Классификация будет примерно такая - Старпер ноет про то ... весь текст скрыт [показать]
     
  • 2.6, Аноним, 10:07, 23/08/2016 [^] [ответить] [смотреть все] [показать ветку]  
  • +1 +/
    лучше комменты классифицировать, чтобы порядок.
     
  • 1.2, Аноним, 09:28, 23/08/2016 [ответить] [смотреть все]  
  • +/
    А иерархии тегов сайтов, сделанные этим fastText, доступны где-то в готовом виде... весь текст скрыт [показать]
     
  • 1.3, бедный буратино, 09:43, 23/08/2016 [ответить] [смотреть все]  
  • +/
    а тип "хрень, которую и читать не стоит", там есть?
     
     
  • 2.5, rob pike, 09:57, 23/08/2016 [^] [ответить] [смотреть все] [показать ветку]  
  • +5 +/
    С этим все очень и очень плохо Категорное деление, упомянутое вами, хоть и в не... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.24, cmp, 11:59, 23/08/2016 [^] [ответить] [смотреть все]  
  • +1 +/
    Да ну ладно, в чем проблема построить бинарный классификатор В тематических л... весь текст скрыт [показать]
     
  • 3.36, Аноним, 00:23, 24/08/2016 [^] [ответить] [смотреть все]  
  • +/
    Соцсети уже давно подсовывают посты, похожие на те, что вы чаще всего читаете, и... весь текст скрыт [показать]
     
     
  • 4.37, Аноним, 00:25, 24/08/2016 [^] [ответить] [смотреть все]  
  • +/
    И да, можно нажать Крестик Не интересно , чтобы пост из ленты скрылся, тогда ... весь текст скрыт [показать]
     
  • 3.43, Аноним, 07:54, 26/08/2016 [^] [ответить] [смотреть все]  
  • +/
    По сути вы слишком много хотите от пользователей - 95 пользователей хронически ... весь текст скрыт [показать]
     
  • 2.7, Аноним, 10:09, 23/08/2016 [^] [ответить] [смотреть все] [показать ветку]  
  • +5 +/
    Критерии такого типа неопределимы. Донцова не даст соврать.
     
     
  • 3.9, Ivan, 10:43, 23/08/2016 [^] [ответить] [смотреть все]  
  • +1 +/
    Исходники донцовой будут опубликованы позже, когда она начнет проходить тест Тью... весь текст скрыт [показать]
     
  • 1.11, Аноним, 10:50, 23/08/2016 [ответить] [смотреть все]  
  • –1 +/
    клоун банальный поиск по ключевым словам теперь стал ещё быстрее Если нашёл сл... весь текст скрыт [показать]
     
     
  • 2.13, Ан0ним, 11:05, 23/08/2016 [^] [ответить] [смотреть все] [показать ветку]  
  • +/
    ...а может ещё и криминал. Тут нужно осмотреть окружающие слова - контекст.
     
     
  • 3.14, Аноним, 11:07, 23/08/2016 [^] [ответить] [смотреть все]  
  • –1 +/
    клоун для криминала будут другие ключевые слова Один текст может иметь несколь... весь текст скрыт [показать]
     
     
  • 4.15, Ан0ним, 11:19, 23/08/2016 [^] [ответить] [смотреть все]  
  • +/
    Так и я о том же, по наличию слов дебет кредитом нельзя однозначно сказать, что ... весь текст скрыт [показать]
     
     
  • 5.17, Crazy Alex, 11:27, 23/08/2016 [^] [ответить] [смотреть все]  
  • +/
    Именно что можно Другое дело, что это может быть кирминальная бухгалтерия, ну т... весь текст скрыт [показать]
     
  • 5.20, Аноним, 11:33, 23/08/2016 [^] [ответить] [смотреть все]  
  • +/
    клоун я привёл упрощённый пример Берётся набор текстов заранее известной темат... весь текст скрыт [показать]
     
  • 2.16, бедный буратино, 11:21, 23/08/2016 [^] [ответить] [смотреть все] [показать ветку]  
  • +8 +/
    > Если нашёл слова "дебет", "кредит", "счёт", "отчётность", значит это "бухгалтерия".

    неа, это комментарий к новости "Facebook открыл код библиотеки классификации текста fastText"

     
  • 2.18, Crazy Alex, 11:28, 23/08/2016 [^] [ответить] [смотреть все] [показать ветку]  
  • +/
    Ну да, вот если б оно сами категории могло само формировать...
     
     
     
    Часть нити удалена модератором

  • 4.25, Crazy Alex, 14:24, 23/08/2016 [^] [ответить] [смотреть все]  
  • +/
    Ещё как нужно Язык-то описан, только то, что реально ищешь - редко чётко куда-т... весь текст скрыт [показать]
     
     
  • 5.26, Аноним, 14:58, 23/08/2016 [^] [ответить] [смотреть все]  
  • +/
    клоун поиск - это другая задача, более сложная по отношению к классификации Да... весь текст скрыт [показать]
     
     
  • 6.27, Crazy Alex, 15:38, 23/08/2016 [^] [ответить] [смотреть все]  
  • +/
    Ну так классификация нужна либо для поиска, либо для подкидывания похожего во... весь текст скрыт [показать]
     
     
  • 7.28, Аноним, 16:41, 23/08/2016 [^] [ответить] [смотреть все]  
  • +/
    клоун в какую сторону расширять хочешь Поисковый запрос сдача IELTS экзаме... весь текст скрыт [показать]
     
     
  • 8.29, Crazy Alex, 18:16, 23/08/2016 [^] [ответить] [смотреть все]  
  • +/
    Да что попало - что рядом лежит по какой-то метрике в запрос добавить И дать кн... весь текст скрыт [показать]
     
     
  • 9.30, анонимус, 19:38, 23/08/2016 [^] [ответить] [смотреть все]  
  • +/
    Советую
    https://ru.m.wikipedia.org/wiki/%D0%9E%D1%82%D0%
     
     
  • 10.32, Аноним, 21:39, 23/08/2016 [^] [ответить] [смотреть все]  
  • –1 +/
    клоун где-то рядом всплывёт красный октябрь, Охота за красным октябрём , устро... весь текст скрыт [показать]
     
     
  • 11.33, Crazy Alex, 23:06, 23/08/2016 [^] [ответить] [смотреть все]  
  • +1 +/
    Ну вот поэтому на слишком общие запросы (ловить можно банально по числу подходящих страниц) дополнительное ничего добавлять не нужно.

    Кстати, сейчас гугл действует совершенно безумно - если на запрос находится мало результатов он с завидным усердием начинает подсовывать страницы, релевантные запросу с одним отброшенным словом. Бред выходит просто редкостный, и помечает он это так скромно, что хрен заметишь с первого раза без UserCSS.

     
  • 1.23, Аноним, 11:57, 23/08/2016 [ответить] [смотреть все]  
  • +4 +/
    теперь корчеватели можно сортировать... весь текст скрыт [показать]
     
  • 1.31, adolfus, 21:09, 23/08/2016 [ответить] [смотреть все]  
  • +/
    Прятно видеть человеческие суффиксы у файлов с исходниками.
     
     
  • 2.38, АнонимХ, 12:59, 24/08/2016 [^] [ответить] [смотреть все] [показать ветку]  
  • +/
    Это filename extension что ли? Чем .cc примечательнее?
     
  • 1.39, Аноним, 01:08, 25/08/2016 [ответить] [смотреть все]  
  • +/
    Интересно, какая категория будет корнем в дереве категорий? Философия?
     
  • 1.40, Аноним, 07:50, 25/08/2016 [ответить] [смотреть все]  
  • +1 +/
    А не гонево ли Эта база весит 1 5 терабайта и получается, что диски читают со с... весь текст скрыт [показать]
     
  • 1.41, 5kbps, 20:24, 25/08/2016 [ответить] [смотреть все]  
  • +/
    > точность классификации 72.3%,

    Что понимать под этой цифрой? Совпадение с результатом аналогичной работы, проделанной человеком?

     

     Добавить комментарий
    Имя:
    E-Mail:
    Заголовок:
    Текст:


      Закладки на сайте
      Проследить за страницей
    Created 1996-2017 by Maxim Chirkov  
    ДобавитьРекламаВебмастеруГИД  
    Hosting by Ihor TopList