forum.opennet.ru - "Facebook открыл код библиотеки классификации текста fastText" (41)

форумы

помощь

поиск

регистрация

вход/выход

слежка

"Facebook открыл код библиотеки классификации текста fastText"

Форум Разговоры, обсуждение новостей
Вариант для распечатки		Пред. тема \| След. тема
Изначальное сообщение		[ Отслеживать ]

"Facebook открыл код библиотеки классификации текста fastText"	+/–
Сообщение от opennews (??) on 23-Авг-16, 09:22
Лаборатория искусственного интеллекта Facebook объявила (https://code.facebook.com/posts/1438652669495149/fair-open-s.../) об открытии исходных текстов библиотеки fastText, предоставляющей средства для классификации текста с использованием методов машинного обучения. Код написан на языке C++ и открыт (https://github.com/facebookresearch/fastText) под лицензией BSD. Библиотека позволяет организовать автоматическое назначение категорий для произвольного текста, на основании предварительно проведённого обучения по наборам текстов с уже известными категориями. Например, fastText может оценить является ли письмо спамом или определить к какой категории относится статья (научная, спорт, финансы, развлечения и т.п.), после обучения по типовым базам спама и тематических статей. Из достоинств fastText отмечается поддержка различных языков и очень высокая скорость обучения. Например, обучение fastText по базе Yahoo (https://www.opennet.ru/opennews/art.shtml?num=43674) длится всего 5 секунд и обеспечивает точность классификации 72.3%, в то время как char-CNN (https://github.com/yoonkim/lstm-char-cnn) выполняет эту работу за 1 день при точности 71.2%, а VDCNN за 2 часа при точности 73.4%. Результирующая классификация также выполняется на несколько порядков быстрее существующих аналогов. Для увеличения производительности работы с большим числом категорий в fastText применяется иерархический классификатор, организующих хранение категорий в древовидной структуре, вместо обычно применяемых плоских моделей. При этом дерево строится с учётом популярности категорий, что позволяет повысить скорость доступа к частоиспользуемым элементам. При тестировании модели, в обучении которой применялась база в 1 миллиард слов и более 300 тысяч категорий, на обучение было потрачено менее 10 минут, а на классификацию выборки из 500 тысяч записей менее 5 минут (около 1700 сопоставлений в секунду) на системе с обычным многоядерным CPU. URL: https://code.facebook.com/posts/1438652669495149/fair-open-s.../ Новость: https://www.opennet.ru/opennews/art.shtml?num=45018
Ответить \| Правка \| Cообщить модератору

Оглавление

Facebook открыл код библиотеки классификации текста fastText, Аноним, 09:22 , 23-Авг-16, (1) +8

Facebook открыл код библиотеки классификации текста fastText, rob pike, 09:45 , 23-Авг-16, (4) +27

Facebook открыл код библиотеки классификации текста fastText, jtad, 10:33 , 23-Авг-16, (8)

Facebook открыл код библиотеки классификации текста fastText, rob pike, 10:44 , 23-Авг-16, (10) +6

Facebook открыл код библиотеки классификации текста fastText, jtad, 11:36 , 23-Авг-16, (21) +1

Facebook открыл код библиотеки классификации текста fastText, тоже Аноним, 11:29 , 23-Авг-16, (19) +16
Facebook открыл код библиотеки классификации текста fastText, Аноним, 00:20 , 24-Авг-16, (34)
Facebook открыл код библиотеки классификации текста fastText, xm, 00:21 , 24-Авг-16, (35) +1
Facebook открыл код библиотеки классификации текста fastText, Аноним, 07:13 , 26-Авг-16, (42)

Facebook открыл код библиотеки классификации текста fastText, Аноним, 10:07 , 23-Авг-16, (6) +1

Facebook открыл код библиотеки классификации текста fastText, Аноним, 09:28 , 23-Авг-16, (2)
Facebook открыл код библиотеки классификации текста fastText, бедный буратино, 09:43 , 23-Авг-16, (3)

Facebook открыл код библиотеки классификации текста fastText, rob pike, 09:57 , 23-Авг-16, (5) +5

Facebook открыл код библиотеки классификации текста fastText, cmp, 11:59 , 23-Авг-16, (24) +1
Facebook открыл код библиотеки классификации текста fastText, Аноним, 00:23 , 24-Авг-16, (36)

Facebook открыл код библиотеки классификации текста fastText, Аноним, 00:25 , 24-Авг-16, (37)

Facebook открыл код библиотеки классификации текста fastText, Аноним, 07:54 , 26-Авг-16, (43)

Facebook открыл код библиотеки классификации текста fastText, Аноним, 10:09 , 23-Авг-16, (7) +5

Facebook открыл код библиотеки классификации текста fastText, Ivan, 10:43 , 23-Авг-16, (9) +1

Facebook открыл код библиотеки классификации текста fastText, Аноним, 10:50 , 23-Авг-16, (11) –1

Facebook открыл код библиотеки классификации текста fastText, Ан0ним, 11:05 , 23-Авг-16, (13)

Facebook открыл код библиотеки классификации текста fastText, Аноним, 11:07 , 23-Авг-16, (14) –1

Facebook открыл код библиотеки классификации текста fastText, Ан0ним, 11:19 , 23-Авг-16, (15)

Facebook открыл код библиотеки классификации текста fastText, Crazy Alex, 11:27 , 23-Авг-16, (17)
Facebook открыл код библиотеки классификации текста fastText, Аноним, 11:33 , 23-Авг-16, (20)

Facebook открыл код библиотеки классификации текста fastText, бедный буратино, 11:21 , 23-Авг-16, (16) +8
Facebook открыл код библиотеки классификации текста fastText, Crazy Alex, 11:28 , 23-Авг-16, (18)

Facebook открыл код библиотеки классификации текста fastText, Crazy Alex, 14:24 , 23-Авг-16, (25)

Facebook открыл код библиотеки классификации текста fastText, Аноним, 14:58 , 23-Авг-16, (26)

Facebook открыл код библиотеки классификации текста fastText, Crazy Alex, 15:38 , 23-Авг-16, (27)

Facebook открыл код библиотеки классификации текста fastText, Аноним, 16:41 , 23-Авг-16, (28)

Facebook открыл код библиотеки классификации текста fastText, Crazy Alex, 18:16 , 23-Авг-16, (29)

Facebook открыл код библиотеки классификации текста fastText, анонимус, 19:38 , 23-Авг-16, (30)

Facebook открыл код библиотеки классификации текста fastText, Аноним, 21:39 , 23-Авг-16, (32) –1

Facebook открыл код библиотеки классификации текста fastText, Crazy Alex, 23:06 , 23-Авг-16, (33) +1

Facebook открыл код библиотеки классификации текста fastText, Аноним, 11:57 , 23-Авг-16, (23) +4
Facebook открыл код библиотеки классификации текста fastText, adolfus, 21:09 , 23-Авг-16, (31)

Facebook открыл код библиотеки классификации текста fastText, АнонимХ, 12:59 , 24-Авг-16, (38)

Facebook открыл код библиотеки классификации текста fastText, Аноним, 01:08 , 25-Авг-16, (39)
Facebook открыл код библиотеки классификации текста fastText, Аноним, 07:50 , 25-Авг-16, (40) +1
Facebook открыл код библиотеки классификации текста fastText, 5kbps, 20:24 , 25-Авг-16, (41)

Сообщения по теме [Сортировка по времени | RSS]

1. "Facebook открыл код библиотеки классификации текста fastText" +8 +/–

Сообщение от Аноним (??) on 23-Авг-16, 09:22

Новости на Opennet и Хабре сразу классифицировать

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

4. "Facebook открыл код библиотеки классификации текста fastText" +27 +/–

Сообщение от rob pike on 23-Авг-16, 09:45

Главное мудро выбрать классификацию. Для Опеннета подойдет такая
  - "systemd нанес очередное улучшение на радость всему прогрессивному человечеству"
  - "Mozilla продолжает заниматься фигней вместо браузера"
  - "Microsoft открыла код очередного продукта"
  - "вышла новая версия DE X с нескучными обоями"

Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

8. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от jtad on 23-Авг-16, 10:33

to rob pike: про systemd не согласен, в остальном в точку

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

10. "Facebook открыл код библиотеки классификации текста fastText" +6 +/–

Сообщение от rob pike on 23-Авг-16, 10:44

Про systemd вы согласны - либо с "нанес", либо с "улучшением".

Ответить | Правка | ^ к родителю #8 | Наверх | Cообщить модератору

21. "Facebook открыл код библиотеки классификации текста fastText" +1 +/–

Сообщение от jtad on 23-Авг-16, 11:36

не заметил сарказма :). С улучшением конечно

Ответить | Правка | ^ к родителю #10 | Наверх | Cообщить модератору

19. "Facebook открыл код библиотеки классификации текста fastText" +16 +/–

Сообщение от тоже Аноним (ok) on 23-Авг-16, 11:29

Маловато категорий. Незаслуженно забытые:
- "кто-то в Canonical решил, что, может быть, в следующем релизе они сделают не так, как в предыдущем, хотя ручаться за это никто не может"
- "wine исправил очередное множество ошибок для улучшения совместимости с чем попало"
- "вышла новая версия популярного открытого продукта с неудобопроизносимым названием: перечень изменений без уточнения, что этот продукт вообще делает"
- "в РФ тоже есть IT! Качайте наш дистрибутив и приезжайте на конференцию в Минск (реклама)"

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

34. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от Аноним (??) on 24-Авг-16, 00:20

- "Facebook открыл код ещё одной библиотеки, являющейся частью Skynet"
- "Компания Canonical представила Altthing, являющийся конкурентом Something компании Red Hat"
- "Критическая уязвимость в NodeJS, получившая названия Not-a-JS"

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

35. "Facebook открыл код библиотеки классификации текста fastText" +1 +/–

Сообщение от xm (ok) on 24-Авг-16, 00:21

Про systemd "нанёс непоправимое очередное улучшение" будет точнее и правильнее :-)

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

42. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от Аноним (??) on 26-Авг-16, 07:13

На коменты напустить. Классификация будет примерно такая:
- Старпер ноет про то что раньше солнце светило ярче.
- Школьник хвастается новым гибридом арча и генты.
- Хейтер ругает системд.
- Тролль жирно троллит.
Это пожалуй все паттерны которые можно найти в коментах опеннета.

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

6. "Facebook открыл код библиотеки классификации текста fastText" +1 +/–

Сообщение от Аноним (??) on 23-Авг-16, 10:07

лучше комменты классифицировать, чтобы порядок.

Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

2. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от Аноним (??) on 23-Авг-16, 09:28

А иерархии тегов сайтов, сделанные этим fastText, доступны где-то в готовом виде?

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

3. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от бедный буратино (ok) on 23-Авг-16, 09:43

а тип "хрень, которую и читать не стоит", там есть?

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

5. "Facebook открыл код библиотеки классификации текста fastText" +5 +/–

Сообщение от rob pike on 23-Авг-16, 09:57

С этим все очень и очень плохо.
Категорное деление, упомянутое вами, хоть и в несколько резкой, но безусловно понятной и емкой формуле, невозможно без качественного профиля пользователя по отношению к новостям.
Если ваш профиль укладывается в до предела упрощенное "новости - да, спорт - нет" (или наоборот), то все, конечно, легко. Проблема в том что никакой реальный профиль в такую формулу не укладывается.
Выхода два - либо заставить вас составить свой профиль максимально подробно, но никакой реальный пользователь это делать не станет - либо вычислять его автоматически подсовывая вам относительно случайные новости и глядя на то что вы отвергнете с возмущением, а что наоборот, лайкнете.
С первого взгляда такая схема представляется реалистичной, но уже со второго выясняется что она тоже не работает - ведь по сути таким образом пользователю предлагается натренировать свою собственную нейросеть, что он задолбается делать приблизительно на первых 0.0001% новостей от необходимых для качественной тренировки.

Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

24. "Facebook открыл код библиотеки классификации текста fastText" +1 +/–

Сообщение от cmp (ok) on 23-Авг-16, 11:59

Да ну ладно, в чем проблема построить "бинарный" классификатор? В тематических лентах новости появляются не так часто, а если пользователь жмет кнопку "еще", то значит подписывается на смежные тематики, как только перестанет, так сразу обозначит круг интересов и уровень вовлеченности.

Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

36. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от Аноним (??) on 24-Авг-16, 00:23

Соцсети уже давно подсовывают посты, похожие на те, что вы чаще всего читаете, и/или из групп/пабликов, похожих на те, на которые вы подписаны. Похожесть паблика N на другие определяется либо по категориям, если они указаны, либо по тому, на что ещё подписано большинство подписчиков паблика N.

Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

37. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от Аноним (??) on 24-Авг-16, 00:25

И да, можно нажать "Крестик"/"Не интересно", чтобы пост из ленты скрылся, тогда паблик получает минус к персональному скору для юзера и появляется реже, после достижения некоторого низкого значения скора – не показывается никогда.

Ответить | Правка | ^ к родителю #36 | Наверх | Cообщить модератору

43. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от Аноним (??) on 26-Авг-16, 07:54

> по сути таким образом пользователю предлагается натренировать свою собственную нейросеть,
По сути вы слишком много хотите от пользователей - 95% пользователей хронически не способны к тренировке СВОЕЙ нейросети. А вы хотите чтобы они еще и чужую натренировали.

Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

7. "Facebook открыл код библиотеки классификации текста fastText" +5 +/–

Сообщение от Аноним (??) on 23-Авг-16, 10:09

Критерии такого типа неопределимы. Донцова не даст соврать.

Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

9. "Facebook открыл код библиотеки классификации текста fastText" +1 +/–

Сообщение от Ivan (??) on 23-Авг-16, 10:43

Исходники донцовой будут опубликованы позже, когда она начнет проходить тест Тьюринга. А пока ценность ее свидетельств околонулевая.

Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

11. "Facebook открыл код библиотеки классификации текста fastText" –1 +/–

Сообщение от Аноним (??) on 23-Авг-16, 10:50

клоун: банальный поиск по ключевым словам теперь стал ещё быстрее.
Если нашёл слова "дебет", "кредит", "счёт", "отчётность", значит это "бухгалтерия".

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

13. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от Ан0ним on 23-Авг-16, 11:05

...а может ещё и криминал. Тут нужно осмотреть окружающие слова - контекст.

Ответить | Правка | ^ к родителю #11 | Наверх | Cообщить модератору

14. "Facebook открыл код библиотеки классификации текста fastText" –1 +/–

Сообщение от Аноним (??) on 23-Авг-16, 11:07

клоун: для криминала будут другие ключевые слова. Один текст может иметь несколько тем.

Ответить | Правка | ^ к родителю #13 | Наверх | Cообщить модератору

15. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от Ан0ним on 23-Авг-16, 11:19

Так и я о том же, по наличию слов дебет/кредитом нельзя однозначно сказать, что это текст по бухгалтерии.

Ответить | Правка | ^ к родителю #14 | Наверх | Cообщить модератору

17. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от Crazy Alex (ok) on 23-Авг-16, 11:27

Именно что можно. Другое дело, что это может быть кирминальная бухгалтерия, ну так это другой вопрос, решаемый отдельно.

Ответить | Правка | ^ к родителю #15 | Наверх | Cообщить модератору

20. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от Аноним (??) on 23-Авг-16, 11:33

клоун: я привёл упрощённый пример.
Берётся набор текстов заранее известной тематики и по ним определяются ключевые слова. Определяются веса слова, калибруется функция расстояния.
Затем берётся набор текстов другой тематики и проводится повторная калибровка.
Получили список ключевых слов и веса для них. Теперь можно юзать.
В основе всех подобных алгоритмов лежит полином, с которым игрались ещё в 60-е. Где-то полином в явном виде, где-то как параметры функции расстояния, где-то (в нейросетях) как вес узлов, но полином это один хрен полином. Ничего нового не придумали, поэтому ускоряют то, что есть.
Что-то интересное есть только у Интел с её интеллектуальным процессором (лабораторную крысу разрезали, записали как соединены нейроны мозга, заменили их на транзисторы и вроде как получили принципиально новое распознавание образов), но он пока в бете.

Ответить | Правка | ^ к родителю #15 | Наверх | Cообщить модератору

16. "Facebook открыл код библиотеки классификации текста fastText" +8 +/–

Сообщение от бедный буратино (ok) on 23-Авг-16, 11:21

> Если нашёл слова "дебет", "кредит", "счёт", "отчётность", значит это "бухгалтерия".
неа, это комментарий к новости "Facebook открыл код библиотеки классификации текста fastText"

Ответить | Правка | ^ к родителю #11 | Наверх | Cообщить модератору

18. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от Crazy Alex (ok) on 23-Авг-16, 11:28

Ну да, вот если б оно сами категории могло само формировать...

Ответить | Правка | ^ к родителю #11 | Наверх | Cообщить модератору

Часть нити удалена модератором

25. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от Crazy Alex (ok) on 23-Авг-16, 14:24

Ещё как нужно. Язык-то описан, только то, что реально ищешь - редко чётко куда-то попадает. Если я ищу всё о DIY-применении серводвигателей в быту - лучше, если мне ещё притащит (возможно, по просьбе) "соседнее" - шаговики, например, или соленоиды. Ну потому что функции у них иногда похожие. И вот на этом "иногда" подход через антологии и ломается. К примеру, что в других случаях для похожих задач используют вообще банки с водой (открытие форточек для теплиц).
Не зря популярные в своё время каталоги сайтов (где были именно продуманные классификации) благополучно померли.

Ответить | Правка | ^ к родителю #14 | Наверх | Cообщить модератору

26. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от Аноним (??) on 23-Авг-16, 14:58

клоун: поиск - это другая задача, более сложная по отношению к классификации.
Даже в случае двух людей прежде чем задать вопрос, нужно знать половину ответа. Общение чаще всего идёт путём уточнения вопроса, у поисковика такой возможности нет.
Я несколько недель искал дешёвый датчик прикосновения. По-английски они называются FSR или "touch sensor". Только вот фраза "touch sensor" является зарегестрированной торговой маркой компании "FSR". Понятно, что компания продаёт свои датчики по цене 500-1500 руб. Нужный мне датчик называется "тензо BF350-3AA" и стоит 30 руб. Ты или знаешь половину ответа ("тензо") или переплачиваешь жлобам.

Ответить | Правка | ^ к родителю #25 | Наверх | Cообщить модератору

27. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от Crazy Alex (ok) on 23-Авг-16, 15:38

Ну так классификация нужна либо для поиска, либо для подкидывания "похожего"/"возможно интересного" -  в случае Фейсбука и подобных уж точно.
И как раз в вашем случае ответ находится именно расширением области поиска (и исключением потом из неё FSR) - быстро высните, что нужная вам штука называется strain gauge. Только не прикосновения, а нажатия, наверное. Touch sensor и strain gauge - это совсем разные вещи.

Ответить | Правка | ^ к родителю #26 | Наверх | Cообщить модератору

28. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от Аноним (??) on 23-Авг-16, 16:41

клоун: в какую сторону расширять хочешь?
Поисковый запрос: "сдача IELTS" (экзамен такой). Что интересует вопрошающего? По хорошему, он должен получить FAQ с ответами на часто задаваемые вопросы из которых он выберет интересующие, но такие штуки автоматически пока не создаются.
Или более сложный запрос - "отпуск в октябре", ответ на который должен учитывать личные предпочтения, предыдущий опыт, сезонность, акции авиакомпаний и пр.

Ответить | Правка | ^ к родителю #27 | Наверх | Cообщить модератору

29. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от Crazy Alex (ok) on 23-Авг-16, 18:16

Да что попало - что рядом лежит по какой-то метрике в запрос добавить. И дать кнопочку возле каждого результата "убрать этот и похожие".  В общем-то примерно так и происходит, когда гуглишь всерьёз - но когда пытаешься уточнять, руками подставляя/исключая слова, велики шансы пропустить какой-то раздел, который, в общем-то, нужен - в примере выше это были бы соленоиды, допустим.
Для "сдача IELTS" - вероятно, ближними будут TOEFL, учебники/курсы/репетиторы по английскому, аналогичные экзамены для других языков.
Для "отпуск в октябре" надо увидеть, что это очень generic и расширять особо некуда. Зато сужать - сколько угодно.

Ответить | Правка | ^ к родителю #28 | Наверх | Cообщить модератору

30. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от анонимус (??) on 23-Авг-16, 19:38

Советую
https://ru.m.wikipedia.org/wiki/%D0%9E%D1...

Ответить | Правка | ^ к родителю #29 | Наверх | Cообщить модератору

32. "Facebook открыл код библиотеки классификации текста fastText" –1 +/–

Сообщение от Аноним (??) on 23-Авг-16, 21:39

клоун: где-то рядом всплывёт красный октябрь, "Охота за красным октябрём", устройство подводных лодок, а пользователь потом сидит и офигевает почему по запросу "отпуск в октябре" ему предлагают форум ветеранов-подводников.

Ответить | Правка | ^ к родителю #30 | Наверх | Cообщить модератору

33. "Facebook открыл код библиотеки классификации текста fastText" +1 +/–

Сообщение от Crazy Alex (ok) on 23-Авг-16, 23:06

Ну вот поэтому на слишком общие запросы (ловить можно банально по числу подходящих страниц) дополнительное ничего добавлять не нужно.
Кстати, сейчас гугл действует совершенно безумно - если на запрос находится мало результатов он с завидным усердием начинает подсовывать страницы, релевантные запросу с одним отброшенным словом. Бред выходит просто редкостный, и помечает он это так скромно, что хрен заметишь с первого раза без UserCSS.

Ответить | Правка | ^ к родителю #32 | Наверх | Cообщить модератору

23. "Facebook открыл код библиотеки классификации текста fastText" +4 +/–

Сообщение от Аноним (??) on 23-Авг-16, 11:57

>  к какой категории относится статья (научная...
теперь корчеватели можно сортировать

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

31. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от adolfus (ok) on 23-Авг-16, 21:09

Прятно видеть человеческие суффиксы у файлов с исходниками.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

38. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от АнонимХ (ok) on 24-Авг-16, 12:59

Это filename extension что ли? Чем .cc примечательнее?

Ответить | Правка | ^ к родителю #31 | Наверх | Cообщить модератору

39. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от Аноним (??) on 25-Авг-16, 01:08

Интересно, какая категория будет корнем в дереве категорий? Философия?

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

40. "Facebook открыл код библиотеки классификации текста fastText" +1 +/–

Сообщение от Аноним (??) on 25-Авг-16, 07:50

>обучение fastText по базе Yahoo длится всего 5 секунд
А не гонево ли? Эта база весит 1.5 терабайта и получается, что диски читают со скоростью не менее 300Гб/секунду и такой же объем обрабатывает программа в оставшиеся микросекунды.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

41. "Facebook открыл код библиотеки классификации текста fastText" +/–

Сообщение от 5kbps (ok) on 25-Авг-16, 20:24

> точность классификации 72.3%,
Что понимать под этой цифрой? Совпадение с результатом аналогичной работы, проделанной человеком?

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

1. "Facebook открыл код библиотеки классификации текста fastText"	+8 +/–
Сообщение от Аноним (??) on 23-Авг-16, 09:22
Новости на Opennet и Хабре сразу классифицировать
Ответить \| Правка \| ^ к родителю #0 \| Наверх \| Cообщить модератору


	4. "Facebook открыл код библиотеки классификации текста fastText"	+27 +/–
	Сообщение от rob pike on 23-Авг-16, 09:45
	Главное мудро выбрать классификацию. Для Опеннета подойдет такая - "systemd нанес очередное улучшение на радость всему прогрессивному человечеству" - "Mozilla продолжает заниматься фигней вместо браузера" - "Microsoft открыла код очередного продукта" - "вышла новая версия DE X с нескучными обоями"
	Ответить \| Правка \| ^ к родителю #1 \| Наверх \| Cообщить модератору


	8. "Facebook открыл код библиотеки классификации текста fastText"	+/–
	Сообщение от jtad on 23-Авг-16, 10:33
	to rob pike: про systemd не согласен, в остальном в точку
	Ответить \| Правка \| ^ к родителю #4 \| Наверх \| Cообщить модератору


	10. "Facebook открыл код библиотеки классификации текста fastText"	+6 +/–
	Сообщение от rob pike on 23-Авг-16, 10:44
	Про systemd вы согласны - либо с "нанес", либо с "улучшением".
	Ответить \| Правка \| ^ к родителю #8 \| Наверх \| Cообщить модератору


	21. "Facebook открыл код библиотеки классификации текста fastText"	+1 +/–
	Сообщение от jtad on 23-Авг-16, 11:36
	не заметил сарказма :). С улучшением конечно
	Ответить \| Правка \| ^ к родителю #10 \| Наверх \| Cообщить модератору


	19. "Facebook открыл код библиотеки классификации текста fastText"	+16 +/–
	Сообщение от тоже Аноним (ok) on 23-Авг-16, 11:29
	Маловато категорий. Незаслуженно забытые: - "кто-то в Canonical решил, что, может быть, в следующем релизе они сделают не так, как в предыдущем, хотя ручаться за это никто не может" - "wine исправил очередное множество ошибок для улучшения совместимости с чем попало" - "вышла новая версия популярного открытого продукта с неудобопроизносимым названием: перечень изменений без уточнения, что этот продукт вообще делает" - "в РФ тоже есть IT! Качайте наш дистрибутив и приезжайте на конференцию в Минск (реклама)"
	Ответить \| Правка \| ^ к родителю #4 \| Наверх \| Cообщить модератору


	34. "Facebook открыл код библиотеки классификации текста fastText"	+/–
	Сообщение от Аноним (??) on 24-Авг-16, 00:20
	- "Facebook открыл код ещё одной библиотеки, являющейся частью Skynet" - "Компания Canonical представила Altthing, являющийся конкурентом Something компании Red Hat" - "Критическая уязвимость в NodeJS, получившая названия Not-a-JS"
	Ответить \| Правка \| ^ к родителю #4 \| Наверх \| Cообщить модератору


	35. "Facebook открыл код библиотеки классификации текста fastText"	+1 +/–
	Сообщение от xm (ok) on 24-Авг-16, 00:21
	Про systemd "нанёс непоправимое очередное улучшение" будет точнее и правильнее :-)
	Ответить \| Правка \| ^ к родителю #4 \| Наверх \| Cообщить модератору


	42. "Facebook открыл код библиотеки классификации текста fastText"	+/–
	Сообщение от Аноним (??) on 26-Авг-16, 07:13
	На коменты напустить. Классификация будет примерно такая: - Старпер ноет про то что раньше солнце светило ярче. - Школьник хвастается новым гибридом арча и генты. - Хейтер ругает системд. - Тролль жирно троллит. Это пожалуй все паттерны которые можно найти в коментах опеннета.
	Ответить \| Правка \| ^ к родителю #4 \| Наверх \| Cообщить модератору


	6. "Facebook открыл код библиотеки классификации текста fastText"	+1 +/–
	Сообщение от Аноним (??) on 23-Авг-16, 10:07
	лучше комменты классифицировать, чтобы порядок.
	Ответить \| Правка \| ^ к родителю #1 \| Наверх \| Cообщить модератору

2. "Facebook открыл код библиотеки классификации текста fastText"	+/–
Сообщение от Аноним (??) on 23-Авг-16, 09:28
А иерархии тегов сайтов, сделанные этим fastText, доступны где-то в готовом виде?
Ответить \| Правка \| ^ к родителю #0 \| Наверх \| Cообщить модератору

3. "Facebook открыл код библиотеки классификации текста fastText"	+/–
Сообщение от бедный буратино (ok) on 23-Авг-16, 09:43
а тип "хрень, которую и читать не стоит", там есть?
Ответить \| Правка \| ^ к родителю #0 \| Наверх \| Cообщить модератору


	5. "Facebook открыл код библиотеки классификации текста fastText"	+5 +/–
	Сообщение от rob pike on 23-Авг-16, 09:57
	С этим все очень и очень плохо. Категорное деление, упомянутое вами, хоть и в несколько резкой, но безусловно понятной и емкой формуле, невозможно без качественного профиля пользователя по отношению к новостям. Если ваш профиль укладывается в до предела упрощенное "новости - да, спорт - нет" (или наоборот), то все, конечно, легко. Проблема в том что никакой реальный профиль в такую формулу не укладывается. Выхода два - либо заставить вас составить свой профиль максимально подробно, но никакой реальный пользователь это делать не станет - либо вычислять его автоматически подсовывая вам относительно случайные новости и глядя на то что вы отвергнете с возмущением, а что наоборот, лайкнете. С первого взгляда такая схема представляется реалистичной, но уже со второго выясняется что она тоже не работает - ведь по сути таким образом пользователю предлагается натренировать свою собственную нейросеть, что он задолбается делать приблизительно на первых 0.0001% новостей от необходимых для качественной тренировки.
	Ответить \| Правка \| ^ к родителю #3 \| Наверх \| Cообщить модератору


	24. "Facebook открыл код библиотеки классификации текста fastText"	+1 +/–
	Сообщение от cmp (ok) on 23-Авг-16, 11:59
	Да ну ладно, в чем проблема построить "бинарный" классификатор? В тематических лентах новости появляются не так часто, а если пользователь жмет кнопку "еще", то значит подписывается на смежные тематики, как только перестанет, так сразу обозначит круг интересов и уровень вовлеченности.
	Ответить \| Правка \| ^ к родителю #5 \| Наверх \| Cообщить модератору


	36. "Facebook открыл код библиотеки классификации текста fastText"	+/–
	Сообщение от Аноним (??) on 24-Авг-16, 00:23
	Соцсети уже давно подсовывают посты, похожие на те, что вы чаще всего читаете, и/или из групп/пабликов, похожих на те, на которые вы подписаны. Похожесть паблика N на другие определяется либо по категориям, если они указаны, либо по тому, на что ещё подписано большинство подписчиков паблика N.
	Ответить \| Правка \| ^ к родителю #5 \| Наверх \| Cообщить модератору


	37. "Facebook открыл код библиотеки классификации текста fastText"	+/–
	Сообщение от Аноним (??) on 24-Авг-16, 00:25
	И да, можно нажать "Крестик"/"Не интересно", чтобы пост из ленты скрылся, тогда паблик получает минус к персональному скору для юзера и появляется реже, после достижения некоторого низкого значения скора – не показывается никогда.
	Ответить \| Правка \| ^ к родителю #36 \| Наверх \| Cообщить модератору


	43. "Facebook открыл код библиотеки классификации текста fastText"	+/–
	Сообщение от Аноним (??) on 26-Авг-16, 07:54
	> по сути таким образом пользователю предлагается натренировать свою собственную нейросеть, По сути вы слишком много хотите от пользователей - 95% пользователей хронически не способны к тренировке СВОЕЙ нейросети. А вы хотите чтобы они еще и чужую натренировали.
	Ответить \| Правка \| ^ к родителю #5 \| Наверх \| Cообщить модератору


	7. "Facebook открыл код библиотеки классификации текста fastText"	+5 +/–
	Сообщение от Аноним (??) on 23-Авг-16, 10:09
	Критерии такого типа неопределимы. Донцова не даст соврать.
	Ответить \| Правка \| ^ к родителю #3 \| Наверх \| Cообщить модератору


	9. "Facebook открыл код библиотеки классификации текста fastText"	+1 +/–
	Сообщение от Ivan (??) on 23-Авг-16, 10:43
	Исходники донцовой будут опубликованы позже, когда она начнет проходить тест Тьюринга. А пока ценность ее свидетельств околонулевая.
	Ответить \| Правка \| ^ к родителю #7 \| Наверх \| Cообщить модератору

11. "Facebook открыл код библиотеки классификации текста fastText"	–1 +/–
Сообщение от Аноним (??) on 23-Авг-16, 10:50
клоун: банальный поиск по ключевым словам теперь стал ещё быстрее. Если нашёл слова "дебет", "кредит", "счёт", "отчётность", значит это "бухгалтерия".
Ответить \| Правка \| ^ к родителю #0 \| Наверх \| Cообщить модератору


	13. "Facebook открыл код библиотеки классификации текста fastText"	+/–
	Сообщение от Ан0ним on 23-Авг-16, 11:05
	...а может ещё и криминал. Тут нужно осмотреть окружающие слова - контекст.
	Ответить \| Правка \| ^ к родителю #11 \| Наверх \| Cообщить модератору


	14. "Facebook открыл код библиотеки классификации текста fastText"	–1 +/–
	Сообщение от Аноним (??) on 23-Авг-16, 11:07
	клоун: для криминала будут другие ключевые слова. Один текст может иметь несколько тем.
	Ответить \| Правка \| ^ к родителю #13 \| Наверх \| Cообщить модератору


	15. "Facebook открыл код библиотеки классификации текста fastText"	+/–
	Сообщение от Ан0ним on 23-Авг-16, 11:19
	Так и я о том же, по наличию слов дебет/кредитом нельзя однозначно сказать, что это текст по бухгалтерии.
	Ответить \| Правка \| ^ к родителю #14 \| Наверх \| Cообщить модератору


	17. "Facebook открыл код библиотеки классификации текста fastText"	+/–
	Сообщение от Crazy Alex (ok) on 23-Авг-16, 11:27
	Именно что можно. Другое дело, что это может быть кирминальная бухгалтерия, ну так это другой вопрос, решаемый отдельно.
	Ответить \| Правка \| ^ к родителю #15 \| Наверх \| Cообщить модератору


	20. "Facebook открыл код библиотеки классификации текста fastText"	+/–
	Сообщение от Аноним (??) on 23-Авг-16, 11:33
	клоун: я привёл упрощённый пример. Берётся набор текстов заранее известной тематики и по ним определяются ключевые слова. Определяются веса слова, калибруется функция расстояния. Затем берётся набор текстов другой тематики и проводится повторная калибровка. Получили список ключевых слов и веса для них. Теперь можно юзать. В основе всех подобных алгоритмов лежит полином, с которым игрались ещё в 60-е. Где-то полином в явном виде, где-то как параметры функции расстояния, где-то (в нейросетях) как вес узлов, но полином это один хрен полином. Ничего нового не придумали, поэтому ускоряют то, что есть. Что-то интересное есть только у Интел с её интеллектуальным процессором (лабораторную крысу разрезали, записали как соединены нейроны мозга, заменили их на транзисторы и вроде как получили принципиально новое распознавание образов), но он пока в бете.
	Ответить \| Правка \| ^ к родителю #15 \| Наверх \| Cообщить модератору


	16. "Facebook открыл код библиотеки классификации текста fastText"	+8 +/–
	Сообщение от бедный буратино (ok) on 23-Авг-16, 11:21
	> Если нашёл слова "дебет", "кредит", "счёт", "отчётность", значит это "бухгалтерия". неа, это комментарий к новости "Facebook открыл код библиотеки классификации текста fastText"
	Ответить \| Правка \| ^ к родителю #11 \| Наверх \| Cообщить модератору


	18. "Facebook открыл код библиотеки классификации текста fastText"	+/–
	Сообщение от Crazy Alex (ok) on 23-Авг-16, 11:28
	Ну да, вот если б оно сами категории могло само формировать...
	Ответить \| Правка \| ^ к родителю #11 \| Наверх \| Cообщить модератору


	25. "Facebook открыл код библиотеки классификации текста fastText"	+/–
	Сообщение от Crazy Alex (ok) on 23-Авг-16, 14:24
	Ещё как нужно. Язык-то описан, только то, что реально ищешь - редко чётко куда-то попадает. Если я ищу всё о DIY-применении серводвигателей в быту - лучше, если мне ещё притащит (возможно, по просьбе) "соседнее" - шаговики, например, или соленоиды. Ну потому что функции у них иногда похожие. И вот на этом "иногда" подход через антологии и ломается. К примеру, что в других случаях для похожих задач используют вообще банки с водой (открытие форточек для теплиц). Не зря популярные в своё время каталоги сайтов (где были именно продуманные классификации) благополучно померли.
	Ответить \| Правка \| ^ к родителю #14 \| Наверх \| Cообщить модератору


	26. "Facebook открыл код библиотеки классификации текста fastText"	+/–
	Сообщение от Аноним (??) on 23-Авг-16, 14:58
	клоун: поиск - это другая задача, более сложная по отношению к классификации. Даже в случае двух людей прежде чем задать вопрос, нужно знать половину ответа. Общение чаще всего идёт путём уточнения вопроса, у поисковика такой возможности нет. Я несколько недель искал дешёвый датчик прикосновения. По-английски они называются FSR или "touch sensor". Только вот фраза "touch sensor" является зарегестрированной торговой маркой компании "FSR". Понятно, что компания продаёт свои датчики по цене 500-1500 руб. Нужный мне датчик называется "тензо BF350-3AA" и стоит 30 руб. Ты или знаешь половину ответа ("тензо") или переплачиваешь жлобам.
	Ответить \| Правка \| ^ к родителю #25 \| Наверх \| Cообщить модератору


	27. "Facebook открыл код библиотеки классификации текста fastText"	+/–
	Сообщение от Crazy Alex (ok) on 23-Авг-16, 15:38
	Ну так классификация нужна либо для поиска, либо для подкидывания "похожего"/"возможно интересного" - в случае Фейсбука и подобных уж точно. И как раз в вашем случае ответ находится именно расширением области поиска (и исключением потом из неё FSR) - быстро высните, что нужная вам штука называется strain gauge. Только не прикосновения, а нажатия, наверное. Touch sensor и strain gauge - это совсем разные вещи.
	Ответить \| Правка \| ^ к родителю #26 \| Наверх \| Cообщить модератору