The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]




Версия для распечатки Пред. тема | След. тема
Новые ответы [ Отслеживать ]
Text mining - дать оценку тексту, !*! booggyman, 23-Окт-15, 15:08  [смотреть все]
Добрый день, уважаемые форумчане!

Суть задачи довольно простая, на первый взгляд -
1. найти подходящую программу/доработать существующую,
2. произвести "тренировку", используя существующие тексты,
3. на ввод программы подать произвольный текст,
4. на выходе получить оценку в виде баллов (не суть в каком виде, главное это наличие оценки)

Такая программа есть, она называется спам-фильтр (отправлять текст через MTA), но пока мне эта идея кажется безумной и наверняка можно упереться в "заточенность" архитектуры спам-фильтра.
Мне на глаза попался opennlp, и вроде бы в нем есть необходимый функционал, но очень плохо документирован, во всяком случае внешние команды оболочки (API пока тем более для меня темный лес).
Или может уже есть что-то, основанное на муравьином алгоритме? http://math.nsc.ru/conference/zont09/reports/43Schurevich-Kr...

Что можно взять за основу и не изобретать велосипед? Желательно чтобы "это" поддерживало обработку русского языка и было достаточно документировано.

Спасибо.

  • Text mining - дать оценку тексту, !*! Andrey Mitrofanov, 15:47 , 23-Окт-15 (1) +2
    > 3. на ввод программы подать произвольный текст,
    > 4. на выходе получить оценку в виде баллов (не суть в каком
    > виде, главное это наличие оценки)

    Я сегодня добрый:

    #!/bin/bash

    cat >/dev/null

    echo 3+


  • Text mining - дать оценку тексту, !*! booggyman, 19:01 , 23-Окт-15 (2) –1
    >[оверквотинг удален]
    > Такая программа есть, она называется спам-фильтр (отправлять текст через MTA), но пока
    > мне эта идея кажется безумной и наверняка можно упереться в "заточенность"
    > архитектуры спам-фильтра.
    > Мне на глаза попался opennlp, и вроде бы в нем есть необходимый
    > функционал, но очень плохо документирован, во всяком случае внешние команды оболочки
    > (API пока тем более для меня темный лес).
    > Или может уже есть что-то, основанное на муравьином алгоритме? http://math.nsc.ru/conference/zont09/reports/43Schurevich-Kr...
    > Что можно взять за основу и не изобретать велосипед? Желательно чтобы "это"
    > поддерживало обработку русского языка и было достаточно документировано.
    > Спасибо.

    Сам себе: зря парился, спам-фильтр bogofilter отлично подошел для этих целей.

    # echo "Наш замечательный текст" | bogofilter -p | grep spamicity | awk -F"," '{print $3}'
    spamicity=0.520000





Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру