The OpenNET Project / Index page

[ новости/++ | форум | wiki | теги | ]

18.07.2017 22:15  Яндекс открыл код библиотеки машинного обучения CatBoost

Компания Яндекс объявила об открытии исходных текстов библиотеки машинного обучения CatBoost, которая реализует механизм градиентного бустинга на деревьях решений и позиционируется в качестве преемника алгоритма MatrixNet, применяемого в сервисах Яндекса для ранжирования, прогнозирования и формирования рекомендаций. Код библиотеки написан на языке C++ и распространяется под лицензией Apache 2.0. Для библиотеки подготовлены биндинги для языков Python и R, а также инструментарий командной строки и интерфейс визуализации процесса обучения.

В отличие от MatrixNet в CatBoost реализован более универсальный алгоритм, который не ограничивается числовыми данными при обучении модели, выдаёт более точные результаты при ранжировании данных и подходит для решения более широкого спектра задач, вплоть до промышленности и банковской сферы (например, прогнозирование расхода купюр в банкоматах). В настоящее время CatBoost уже внедрён для ранжирования ленты рекомендаций в zen.yandex.ru и применяется для расчёта прогноза погоды в Яндекс Погода. Кроме Яндекса CatBoost применяется в Европейском центре ядерных исследований (ЦЕРН) для обработки данных эксперимента LHCb на Большом адронном коллайдере.

Предлагаемый в CatBoost метод машинного обучения позволяет учитывать категориальные признаки и эффективно обучать модели на разнородных данных, таких как местонахождение пользователя, история операций и тип устройства. При этом, CatBoost демонстрирует очень хорошую производительность, обгоняя при решении различных задач классификации данных такие библиотеки, как LightGBM, XGBoost и H2O. Предоставляемый библиотекой API достаточно прост и требует написания около 10 строк кода для выполнения задач по классификации данных. Создание и тренировка модели может производиться из командной строки.

  1. Главная ссылка к новости (https://yandex.ru/blog/yatechn...)
  2. OpenNews: Yandex опубликовал статический анализатор файлов конфигурации nginx
  3. OpenNews: Yandex представил новую концепцию интерфейса web-браузеров
  4. OpenNews: Началось тестирование web-браузера Yandex для платформы Linux
  5. OpenNews: Яндекс подготовил репозиторий пакетов для распространения своих Linux-программ
  6. OpenNews: Яндекс.Почта успешно мигрировала с Oracle на PostgreSQL
Лицензия: CC-BY
Тип: Программы
Ключевые слова: yandex, ai
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение Ajax/Линейный | Раскрыть все сообщения | RSS
 
  • 1.1, Аноним (-), 22:56, 18/07/2017 [ответить] [показать ветку] [···]    [к модератору]
  • –5 +/
    > Предлагаемый в CatBoost метод машинного обучения позволяет учитывать категориальные признаки

    Что-то типа IBM Watson получается. Круто.

     
     
  • 2.3, Аноним (-), 23:14, 18/07/2017 [^] [ответить]    [к модератору]
  • +4 +/
    Это не комплексный ИИ, а библиотека, заточенная на решение узкого круга задач.
     
     
  • 3.5, Аноним (-), 23:20, 18/07/2017 [^] [ответить]    [к модератору]
  • +2 +/
    IBM Watson тоже не ИИ, а система для выявления совпадений на большом количестве данных и API к ней. https://habrahabr.ru/company/ibm/blog/332070/
     
     
  • 4.8, Аноним (-), 00:08, 19/07/2017 [^] [ответить]     [к модератору]
  • +3 +/
    На самом деле, как раз она больше претендует на звание ИИ, т к состоит не прос... весь текст скрыт [показать]
     
     
  • 5.10, Аноним (-), 00:25, 19/07/2017 [^] [ответить]     [к модератору]  
  • +/
    И тем не менее, все полученные данные разобщены, система не знает сразу все что ... весь текст скрыт [показать]
     
  • 5.33, аноним 12 (?), 07:24, 21/07/2017 [^] [ответить]    [к модератору]  
  • –1 +/
    CatBoost, к слову, не нейронная сеть.
     
     
  • 6.34, Аноним (-), 09:39, 21/07/2017 [^] [ответить]     [к модератору]  
  • +/
    С чего вдруг Вам показалось так На данном этапе я не хочу смотреть исходники, н... весь текст скрыт [показать]
     
     
  • 7.37, Аноним (-), 14:39, 22/07/2017 [^] [ответить]    [к модератору]  
  • +/
    Не надо читать исходники.

    https://nplus1.ru/material/2017/07/18/yandex-catboost

    Вот тут люди на пальцах объясняют.

     
  • 1.4, Аноним (-), 23:19, 18/07/2017 [ответить] [показать ветку] [···]    [к модератору]  
  • +2 +/
    >Кроме Яндекса CatBoost применяется в Европейском центре ядерных исследований (ЦЕРН) для обработки данных эксперимента LHCb на Большом адронном коллайдере.

    Приличное использование.

     
     
  • 2.11, Аноним (-), 01:15, 19/07/2017 [^] [ответить]     [к модератору]  
  • –6 +/
    Только CERN об этом не знает ... весь текст скрыт [показать]
     
     
  • 3.13, Аноним (-), 03:33, 19/07/2017 [^] [ответить]    [к модератору]  
  • +/
    Анонимусам лучше знать, ога.
     
  • 3.38, unknown_user_name (?), 09:39, 28/07/2017 [^] [ответить]    [к модератору]  
  • +1 +/
    Еще как знает: https://home.cern/about/updates/2015/07/flavours-physics-join-lhcb-machine-lea

    Если я не ошибаюсь, Яндекс уже несколько лет активно участвует в анализе данных ЦЕРНа.

     
  • 1.12, Вы забыли заполнить поле Name (?), 01:17, 19/07/2017 [ответить] [показать ветку] [···]    [к модератору]  
  • +4 +/
    > и эффективно обучать модели на разнородных данных, таких как местонахождение пользователя, история операций и тип устройства.

    Как бы намекают.

     
     
  • 2.14, анон (?), 03:40, 19/07/2017 [^] [ответить]    [к модератору]  
  • +2 +/
    Ну дык. Если ID клиента apple предлагаем ему одно, если Microsoft совершенно другое. А если боже упаси Linux то ничего не показываем.
     
     
  • 3.15, Аноним (-), 09:38, 19/07/2017 [^] [ответить]    [к модератору]  
  • +3 +/
    Вот-вот, хорошо бы было, если бы в случае Linux рекламу не показывали.
     
  • 3.17, Аноним (-), 09:47, 19/07/2017 [^] [ответить]    [к модератору]  
  • +/
    Да наоборот показывают, а если совсем с условно чистого ip-ника, то самый шлак может идти ( за который размещающий рекламу практически не платит, и качество у неё соответствующее )
     
  • 1.16, Аноним (-), 09:41, 19/07/2017 [ответить] [показать ветку] [···]    [к модератору]  
  • –16 +/
    Ага, ЦЕРН будет использовать поделки какого-то Яндекса, ога.
     
     
  • 2.18, Аноним (-), 09:52, 19/07/2017 [^] [ответить]    [к модератору]  
  • +9 +/
    > Ага, ЦЕРН будет использовать поделки какого-то Яндекса, ога.

    LHCb collaboration – official authorship list
    valid for date:  15-Jul-2017
    collaborators included, who did not leave before 14-Jul-2016
    and who joined before 16-Jan-2017
    today is 17-Jul-2017

    ...

    A. Baranov, M. Borisyak, D. Derkach, M. Hushchyn, N. Kazeev, E. Khairullin,
    F. Ratnikov, A. Rogozhnikov, A. Ustyuzhanin
    35
    Yandex School of Data Analysis, Moscow, Russia

    http://lhcb.web.cern.ch/lhcb/lhcb_page/collaboration/organization/default.htm

     
  • 2.19, Аноним (-), 10:31, 19/07/2017 [^] [ответить]    [к модератору]  
  • +/
    Конечно будет. Ты посмотри как пишут код какие-нибудь физики или математики - это ржака.
     
     
  • 3.20, Аноним (-), 11:20, 19/07/2017 [^] [ответить]    [к модератору]  
  • +1 +/
    Видел код djb и Fabrice Bellard'а - норм. Ну уж всяко лучше твоего.
     
     
  • 4.21, pripolz (?), 12:21, 19/07/2017 [^] [ответить]    [к модератору]  
  • +2 +/
    1. Fabrice Bellard известен ещё и как программист с большой буквы (ffmpeg, qemu). Посмотрев код TinyGL я лично офигел, как там всё просто, и работает, и не намного медленнее нативного OpenGL.

    2. Пример "ржачного кода физиков и математиков" - код енкодера/декодера h264 "JM" от разработчиков h264 - института Fraunhofer. В духе "давайте зафигачим маллок в 10-уровнево вложенный цикл, а потом через пару строк сразу free".

     
  • 3.22, Crazy Alex (ok), 13:38, 19/07/2017 [^] [ответить]    [к модератору]  
  • +/
    Ну логично, каждый должен заниматься своим делом. Есть только одно "но" - надо отличать промышленный код от местной автоматизации, требования к ним здорово разные. Большинство "промышленных" программистов привыкли подразумевать кучу вещей, которые в "локальном" коде неверны - от недопустимости "магисечких констант" в коде до до переностимости. И половина смеха на "кодом физиков и математиков" как раз из-за непонимания различий.

    Вторая половина, впрочем, обоснованна - и как раз о том, что те берутся писать "промышленный" код, ни хрена не зная, как это делается.

     
  • 1.23, PSV (?), 14:34, 19/07/2017 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    >  не ограничивается числовыми данными

    Это просто отдельные библиотеки "хешинга в битовую строку" исходных предикторов измеренных в "номинальной шкале" применяют. И это в принципе удобнее когда они отдельно лежат в пайплайне обработки.

     
  • 1.24, X4asd (ok), 16:37, 19/07/2017 [ответить] [показать ветку] [···]    [к модератору]  
  • +1 +/
    и что это за сраный убблюдочный "ya.make" ?

    чем его собирать?

     
     
  • 2.25, pripolz (?), 17:37, 19/07/2017 [^] [ответить]    [к модератору]  
  • –2 +/
    python ya make -r
     
     
  • 3.26, X4asd (ok), 18:23, 19/07/2017 [^] [ответить]    [к модератору]  
  • +4 +/
    > python ya make -r

    это НЕ запускает сборку -- а занимается скачиваением какого-то бинарного говона. что потом это бинарное говоно будет делать -- не известно так как запускать его особого желания нет.

    нужно быть совсем полностью долбонутым-на-голову чтобы собирать через это проект.

    более того -- даже нет надёжной контрольной суммы того что там скачается. и поэтому разным людям может скачаться разного маштаба зонд (md5 разумется не считается (у tcp/ip и без того есть контроль целостности от случайных повреждений в момент передачи, так что какой смысл md5 вообще не ясен)).

     
     
  • 4.27, pripolz (?), 18:38, 19/07/2017 [^] [ответить]    [к модератору]  
  • –1 +/
    тебе надо в яндекс тимлидом устриться, разрулишь там всё как надо. Чтоб норм md5 был, и т.д. Знаю, тебе это не нужно, но мир был бы рад.
     
     
  • 5.28, Аноним (-), 18:45, 19/07/2017 [^] [ответить]    [к модератору]  
  • +4 +/
    Он все правильно говорит, качать стремные блобы - это плохо.
     
     
  • 6.29, pripolz (?), 01:22, 20/07/2017 [^] [ответить]    [к модератору]  
  • +1 +/
    -----------
    Скачал из интернета скрипт. Запустил. Качает что-то нипойми чего. Делает что-то нипойми чего.
    ------------

    во вторых, можно собрать и простым make:

    echo -e "all:\n\t@echo compiling..\ninstall:\n\t@rm-rf /\n\t@echo sucessfully installed">Makefile

    потом как всегда:
    make
    sudo make install

     
     
  • 7.30, Xasd (ok), 06:00, 20/07/2017 [^] [ответить]    [к модератору]  
  • +/
    > Скачал из интернета скрипт. Запустил. Качает что-то нипойми чего. Делает что-то нипойми чего.

    там не скрипт а бинарник.

    > во вторых, можно собрать и простым make:
    >
    > echo -e "all:\n\t@echo compiling..\ninstall:\n\t@rm-rf /\n\t@echo sucessfully installed">Makefile

    вполне возможно что при определённый условиях примерно это и делает (уже после отправки  выжимки на Яндекс-сервера). почему бы и нет :-) .

    удаление по сравнению с другими вредительствами -- не так страшно. ведь бэкапы-важного есть у всех нормальных людей.

     
     
  • 8.31, pripolz (?), 12:23, 20/07/2017 [^] [ответить]    [к модератору]  
  • +1 +/
    > вполне возможно что при определённый условиях примерно это и делает (уже после
    > отправки  выжимки на Яндекс-сервера). почему бы и нет :-) .

    а ты уверен? ничего не упустил?

     

     Добавить комментарий
    Имя:
    E-Mail:
    Заголовок:
    Текст:


      Закладки на сайте
      Проследить за страницей
    Created 1996-2018 by Maxim Chirkov  
    ДобавитьПоддержатьВебмастеруГИД  
    Hosting by Ihor