URL: https://www.opennet.ru/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID8
Нить номер: 5269
[ Назад ]

Исходное сообщение
"анализ структуры страницы"

Отправлено FarID , 28-Сен-07 17:03 
существуют ли алгоритмы анализа страницы?
а именно, скажем, выделение рекламы или блока новостей из страницы

Содержание

Сообщения в этом обсуждении
"анализ структуры страницы"
Отправлено tx2 , 28-Сен-07 17:33 
так понимаю что страница - это хтмл??

универсальные? гыгы =)

если нужно просто выделить какойто блок со страницы известной структуры...
и разобрать его на составные части, для последующей обработки:
это делается например с помощью регулярных выражений.


"анализ структуры страницы"
Отправлено FarID , 28-Сен-07 17:39 
>так понимаю что страница - это хтмл??

да

>универсальные? гыгы =)

именно универсальные!

>если нужно просто выделить какойто блок со страницы известной структуры...
>и разобрать его на составные части, для последующей обработки:
>это делается например с помощью регулярных выражений.

в том то и дело что когда известна структура дальше задача сводится к уровню начальных классов детсада

вопрос именно о существовании алгоритмов анализа страницы и разделения ее на логические блоки
к примеру на этой странице сверху и снизу реклама а посередине тематика


"анализ структуры страницы"
Отправлено tx2 , 28-Сен-07 21:54 
в целом - нет ничего невозможного...

ну... скажем в случае универсальных - задача сравнима с задачей разбора естественного языка...

нужны всетаки какието признаки, сформулированные из вне. (слова ключевые, еще что-то)...

ну вот например такая мысль:
например нужно выделить области с рекламой на сайте.
есть некотрые признаки, например ключевые слова banner, ad, реклама...
также есть некотрые признаки других областей: новости, меню и подобное..
ищим эти признаки, составляем список всех включений их в документ.
если близко друг от друга(по тексту/DOM) найдено несколько объектов, пологаем что они принадлежат одной структурной единице - блоку рекламы... пытаемся поднятся выше по иерархии и захватить кусок включающий максимум необходимого нам признака, но при этом - минимум лишнего.

или так:
допустим нужно выделить посты на блоге...
каждому посту, независимо от блога характерен набор элементов:
заголовок, дата, автор, содержание, кнопка "читать дальше", кнопка "комментарии"...
такое есть почти везде...
ищим такого рода повторяющиеся структуры в тексте документа... находим и также пытаемся для каждой найти такую иерархическую рамку, которая включила бы максимум нужного, но при этом не захватила бы ненужного...

вообще открытых реализаций таких вещей я никогда не видел,
и думаю это стоит очень солидных денег...
и это фишка таких контор как гугла и яньдексь

встерчный вопрос: где такая задача встала?


"анализ структуры страницы"
Отправлено FarID , 29-Сен-07 10:28 
Спасибо за интересные мысли

>встерчный вопрос: где такая задача встала?

я сам задался этой темой когда очередной раз начал изучать структуру сайта без rss чтобы сделать импорт новостей

меня интересует наличие подобных разработок
хотелось бы хотелось развить эту тему