The OpenNET Project / Index page

[ новости/++ | форум | wiki | теги ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Text mining - дать оценку тексту"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Программирование под UNIX (Разное)
Изначальное сообщение [ Отслеживать ]

"Text mining - дать оценку тексту"  –1 +/
Сообщение от booggyman (ok) on 23-Окт-15, 15:08 
Добрый день, уважаемые форумчане!

Суть задачи довольно простая, на первый взгляд -
1. найти подходящую программу/доработать существующую,
2. произвести "тренировку", используя существующие тексты,
3. на ввод программы подать произвольный текст,
4. на выходе получить оценку в виде баллов (не суть в каком виде, главное это наличие оценки)

Такая программа есть, она называется спам-фильтр (отправлять текст через MTA), но пока мне эта идея кажется безумной и наверняка можно упереться в "заточенность" архитектуры спам-фильтра.
Мне на глаза попался opennlp, и вроде бы в нем есть необходимый функционал, но очень плохо документирован, во всяком случае внешние команды оболочки (API пока тем более для меня темный лес).
Или может уже есть что-то, основанное на муравьином алгоритме? http://math.nsc.ru/conference/zont09/reports/43Schurevich-Kr...

Что можно взять за основу и не изобретать велосипед? Желательно чтобы "это" поддерживало обработку русского языка и было достаточно документировано.

Спасибо.

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "Text mining - дать оценку тексту"  +2 +/
Сообщение от Andrey Mitrofanov on 23-Окт-15, 15:47 
> 3. на ввод программы подать произвольный текст,
> 4. на выходе получить оценку в виде баллов (не суть в каком
> виде, главное это наличие оценки)

Я сегодня добрый:

#!/bin/bash

cat >/dev/null

echo 3+


Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

3. "Text mining - дать оценку тексту"  +1 +/
Сообщение от booggyman (ok) on 23-Окт-15, 19:03 
> Я сегодня добрый:
>#!/bin/bash
> cat >/dev/null
> echo 3+

Характер Andrey Mitrofanov в 3-х строках

Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

4. "Text mining - дать оценку тексту"  +/
Сообщение от Pahanivo (ok) on 23-Окт-15, 20:37 
Мда, молодежь пошла - ни мозгов, ни фантазии, ни юмора.

Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

5. "Text mining - дать оценку тексту"  +/
Сообщение от booggyman (ok) on 24-Окт-15, 10:17 
> Мда, молодежь пошла - ни мозгов, ни фантазии, ни юмора.

Знаете, это мой первый вопрос за несколько последних лет.
То, что вы называете "мозгами, фантазией и юмором", для меня есть снобизм и агрессия.

В конечном счете, вы можете просто пройти мимо этой темы и не связываться с глупым человеком, а показать свой "мозг, фантазию, юмор" в комментариях к новостям. Впрочем, я вам не указ.

Так или иначе, решение найдено.

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

6. "Text mining - дать оценку тексту"  +/
Сообщение от booggyman (ok) on 24-Окт-15, 20:07 
> Мда, молодежь пошла - ни мозгов, ни фантазии, ни юмора.

Похоже, неверно истолковал ваше сообщение. Эмоции.

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

2. "Text mining - дать оценку тексту"  –1 +/
Сообщение от booggyman (ok) on 23-Окт-15, 19:01 
>[оверквотинг удален]
> Такая программа есть, она называется спам-фильтр (отправлять текст через MTA), но пока
> мне эта идея кажется безумной и наверняка можно упереться в "заточенность"
> архитектуры спам-фильтра.
> Мне на глаза попался opennlp, и вроде бы в нем есть необходимый
> функционал, но очень плохо документирован, во всяком случае внешние команды оболочки
> (API пока тем более для меня темный лес).
> Или может уже есть что-то, основанное на муравьином алгоритме? http://math.nsc.ru/conference/zont09/reports/43Schurevich-Kr...
> Что можно взять за основу и не изобретать велосипед? Желательно чтобы "это"
> поддерживало обработку русского языка и было достаточно документировано.
> Спасибо.

Сам себе: зря парился, спам-фильтр bogofilter отлично подошел для этих целей.

# echo "Наш замечательный текст" | bogofilter -p | grep spamicity | awk -F"," '{print $3}'
spamicity=0.520000


Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема


  Закладки на сайте
  Проследить за страницей
Created 1996-2017 by Maxim Chirkov  
ДобавитьРекламаВебмастеруГИД  
Hosting by Ihor