The OpenNET Project / Index page

[ новости/++ | форум | wiki | теги ]

Как на Perl правильно выделить все A HREF ссылки из HTML файла.
use HTML::TokeParser;
my $p = HTML::TokeParser->new("index.html");
if ($p->get_tag("title")){
   my $title = $p->get_trimmed_text; # Содержимое <title>
}
while (my $token = $p->get_tag("a")) {  # перибираем все <a href>
   my $url = $token->[1]{href} || "";
   my $text = $p->get_trimmed_text("/a"); # Текст между <a ...> и </a>
}
 
08.04.2003
Ключи: html, parser, file, tex, loop, text, perl / Лицензия: CC-BY
Раздел:    Корень / Программисту и web-разработчику / Perl / Полезные подпрограммы на Perl / Подпрограммы для WEB

Обсуждение [ RSS ]
 
  • 1, Igor, 16:23, 15/06/2006 [ответить] [смотреть все]
  • +/
    Предложенный вариант у меня не сработал, зато сработал вот этот:

    use HTML::TokeParser;
    $p = HTML::TokeParser->new("temp.htm");

      while ($token = $p->get_tag("a")) {
          $url = $token->[1]{href} || "-";
          $text = $p->get_trimmed_text("/a");
          print "$url\t$text\n";
      }

     

    Ваш комментарий
    Имя:         
    E-Mail:      
    Заголовок:
    Текст:



      Закладки на сайте
      Проследить за страницей
    Created 1996-2017 by Maxim Chirkov  
    ДобавитьРекламаВебмастеруГИД  
    Hosting by Ihor