The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"OpenNews: Анализ сегодняшнего состояния технологии спамеров."
Версия для распечатки Пред. тема | След. тема
Форум Разговоры, обсуждение новостей
Исходное сообщение [ Отслеживать ]
Подсказка: Для слежения за появлением новых сообщений в нити, нажмите "Проследить за развитием треда".
. "Классные идеи и работающие продукты" +/
Сообщение от Игорь Ашмановemail (?), 18-Апр-04, 22:37 
Ну, ладно. Пусть серые списки и верификация отправителя - это грандиозные идеи. Как только эту верификацию реализовать и навязать 500 миллионам пользователей - пока не сказали. Ну, так ведь на то и идея.
Поскольку вы, скорее всего особо не разбирались, что там "Предлагается Ашмановым к покупке", скажу пару слов, ладно?
а) основная идея фильтрации - что спам автоматически отличить от не-спама нельзя. В частности потому, что для разных пользователей "спам" означает разное.
А ещё потому, что на той стороне - очень умные и хорошо вооружённые люди. Всякие роботы победить людей не могут, для защиты нужны тоже люди. Это основной принцип безопасности.
Поэтому создана круглосуточная лингвистическая лаборатория. Там сидят ночные лингвисты, в задачу которых входит простое решение вопроса "спам/не спам" относительно образцов. Поток образцов нераспознанного спама - 100-200 тысяч писем в сутки. А всего в Рунете мы фильтруем 10-20 миллионов писем в сутки в зависимости от погоды в сети.
"Дневные" же лингвисты заняты более интеллектуальным трудом и пишут правила и эвристики.

б) Сам продукт применяет основной метод автоматической классификации документов по теме. Всего мы распознаём 550 тем спама. Дополнительные методы такие:
а) анализ заголовков (отправитель, прочее).
б) чёрные списки,
в) детектор массовости (модифицированный DCC),
г) сигнатуры (лингвистические свёртки писем),
д) графические сигнатуры нескольких видов, в том числе нечёткие,
е) правила наподобие Спамассасина,
ж) извлечение URLs,
и так далее. Все эти методы - независимы друг от друга, а значит, необходимы.

Конечно, всё это фильтрация по сообщению. Процедурные же методы типа SPF или серые списки трудно применить на массовых сервисах, а они и есть главная мишень спамерв.
Что касается электронных марок и прочего - это административные идеи, про закручиваение гаек, не вижу в них никакой гениальности и даже перспектив. Ну, что можно крикнуть про смену SMTP, а толку-то?
Вообще трудно сравнивать классные идеи и работающий сервис. Мы защищаем почти десять миллионов пользователей в Рунете. Если вдруг заработает какая-то процедурная идея и спама станет убывать, мы с удовольствием это небо отдадим подержать кому-то другому, у нас других идей полно.

Воспоминание про Тетрис: Лёша Пажитнов приходил к нам на семинар в Отдел искусственного интеллекта ВЦ РАН в начале 80-х (а вообще он работал в ВЦ в соседней двери, мы ездили на картошку вместе и т.п.). Он тогда рассказывал, как по его мнению стоит делать игры. Я помню, что над ним посмеивались всякие психологи, которые при семинаре тусовались, но он потом сделал Тетрис, а они ничего не сделали. А собственно саму игру написал школьник Герасимов, который ходил к Лёше программировать.
Правда, в Штатох новые игры у Лёши уже как-то не пошли, и он теперь в Микрософте.

Ответить | Правка | Наверх | Cообщить модератору

Оглавление
OpenNews: Анализ сегодняшнего состояния технологии спамеров., opennews, 15-Апр-04, 13:32  [смотреть все]
Форумы | Темы | Пред. тема | След. тема



Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру