OpenNET: статья - Работа с web контентом на Perl используя LWP. (web perl url)

Работа с web контентом на Perl используя LWP. (web perl url)


<< Предыдущая	ИНДЕКС	Поиск в статьях	src	Установить закладку	Перейти на закладку	Следующая >>
Ключевые слова: web, perl, url,  (найти похожие документы)

From: Дмитрий Николаев <http://perl.dp.ua>;
Newsgroups: http://perl.dp.ua
Date: Mon, 22 Aug 2004 18:21:07 +0000 (UTC)
Subject: Работа с web контентом на Perl используя LWP.

Оригинал: http://perl.dp.ua/articles/perllwp.html


   Web Основы с LWP

   Автор: Sean M. Burke <http://www.perl.com/pub/au/Burke_Sean_M>;
   Перевод: Дмитрий Николаев <http://perl.dp.ua/>;
   Август 20, 2002, http://perl.com


Введение
--------

   LWP (сокращение от "Library for WWW in Perl") это очень популярная
   группа модулей языка Perl для доступа к данным в сети Internet. Как и
   большинство модулей языка Perl, на каждый модуль из состава LWP
   присутствует документация с полным описанием его интерфейса. Однако, в
   LWP есть множество модулей, для которых довольно сложно найти
   документацию по, казалось бы, простейшим вещам.

   Введение в использование LWP, очевидно, должно занять целую книгу, --
   книгу, которая только вышла из печати, и названную: Perl & LWP 
   http://www.oreilly.com/catalog/perllwp/
   Эта статья предлагает Вам несколько примеров, которые помогут Вам в
   организации обычных вещей с LWP.


Доступ к страничкам с помощью LWP::Simple
-----------------------------------------

   Если Вы всего лишь хотите получить документ, находящийся по
   определённому адресу(URL), то самый простой способ сделать это -
   использовать функции модуля LWP::Simple.

   В Perl-скрипте Вы можете сделать это, вызвав функцию get($url). Она
   попытается вытянуть содержимое этого URL. Если всё отработает
   нормально, то функция вернёт это содержимое; но если произойдёт
   какая-нибудь ошибка, то она вернёт undef.

  my $url = 'http://freshair.npr.org/dayFA.cfm?todayDate=current';
  # Всего лишь для примера: новые записи на /Fresh Air/

  use LWP::Simple;
  my $content = get $url;
  die "Couldn't get $url" unless defined $content;

  # Далее что-нибудь делаем с $content, например:

  if($content =~ m/jazz/i) {
    print "They're talking about jazz today on Fresh Air!\n";
  } else {
    print "Fresh Air is apparently jazzless today.\n";
  }

   Более удобный вариант функции get - это getprint, который удобен для
   простмотра содаржимого страниц через Perl. Если функция getprint может
   "достать" страничку, адрес которой Вы задали, то она отправляет
   содержимое в STDOUT; в противном случае, в роли жалобной книги
   выступает STDERR.

        % perl -MLWP::Simple -e "getprint 'http://cpan.org/RECENT'"

   Это URL простого текстового файла. В нём содержится список новых
   файлов на CPAN за последние две недели. Вы легко можете сделать
   shell-команду, которая, например, будет высылать Вам список новых
   модулей Acme:::

      % perl -MLWP::Simple -e "getprint 'http://cpan.org/RECENT'"  \
         | grep "/by-module/Acme" | mail -s "New Acme modules! Joy!" $USER

   В модуле LWP::Simple существует ещё несколько довольно полезных
   функций, включая функцию для выполнения HEAD-запроса для URL (полезна
   для проверки ссылок или получения даты последней корректировки
   документа) и две функции для сохранения и зеркалирования URL в
   локальный файл. Смотрите документацию по LWP::Simple для более
   детальной информации, или Главу 2, "Web Основ" Perl & LWP для большего
   количества примеров.


Основы классовой модели LWP
---------------------------

   Функции LWP::Simple удобны только для простых случаев, но эти функции
   не поддерживают теневых посылок(далее cookies) и проверки
   подлинности(далее authorization); Они также не позволяют устанавливать
   какие-либо параметры HTTP запроса; и главное, они не позволяют
   считывать строки заголовка в HTTP ответе (особенно полный текст
   сообщения в случае HTTP ошибки( HTTP error message)). Для доступа ко
   всем этим возможностям, Вы должны использовать весь набор классов LWP.

   LWP содержит множество классов, но главные два, которые Вы должны
   понимать - это LWP::UserAgent и HTTP::Response. LWP::UserAgent это
   класс для "виртуальных броузеров", кторыми Вы будете пользоваться для
   выполнения запросов. HTTP::Response это класс для ответов (или
   сообщений об ошибке), которые Вы получаете обратно, после запроса.

   Основное выражение при работе с LWP: $response = $browser->get($url),
   или полностью:


  use LWP 5.64; # Загружаем все нужные LWP классы, и удостовериваемся
                # в достаточной свежести версии модуля.

  my $browser = LWP::UserAgent->new;
  ...

  # Используется ниже, тот URL, которому и будет сделан запрос:
  my $url = 'http://freshair.npr.org/dayFA.cfm?todayDate=current';

  my $response = $browser->get( $url );
  die "Can't get $url -- ", $response->status_line
   unless $response->is_success;

  die "Hey, I was expecting HTML, not ", $response->content_type
   unless $response->content_type eq 'text/html';
     # или другой content-type, который Вам подходит

  # В противном случае, производим обработку содержимого:

  if($response->content =~ m/jazz/i) {
    print "They're talking about jazz today on Fresh Air!\n";
  } else {
    print "Fresh Air is apparently jazzless today.\n";
  }


   В этом примере было включено два объекта, в сравнении с предыдущим
   примером: $browser, который содержит объект класса LWP::UserAgent, и
   объект $response, который из класса HTTP::Response. Обычно Вам надо не
   более одного объекта $browser; но каждый раз как Вы делаете запрос, Вы
   получаете назад новый объект HTTP::Response, который содержит
   несколько интересных методов:

     * Status code(Код состояния), который показывает успех либо неудачу
       запроса (Вы это можете проверить так: $response->is_success).
     * HTTP status line(строка состояния), которая, я думаю, будет
       довольна информативна в случае ошибки (её Вы можете увидеть,
       используя $response->status_line, она возвращает что-то вроде:
       "404 Not Found").
     * MIME content-type, например "text/html", "image/gif",
       "application/xml", и т.д., который Вы можете увидеть, используя
       $response->content_type
     * Собственно содержимое запрашиваемого документа в
       $response->content. В случае с HTML, здесь будет HTML код; если -
       GIF, то $response->content вернёт бинарные данные GIF.
     * А также множество удобных и более специфических, которые описаны в
       документации по HTTP::Response, и его суперклассам, HTTP::Message
       и HTTP::Headers.


Добавление других заголовков HTTP запроса
-----------------------------------------

   Вот наиболее часто используемый синтаксис для запросов $response =
   $browser->get($url), но, честно говоря, Вы можете добавлять
   собственные строки HTTP заголовков к запросу, добавлением списка пар
   ключ-значение после URL, например:

        $response = $browser->get( $url, $key1, $value1, $key2, $value2, ... );

   Вот как отправить Netscape-подобные заголовки:

  my @ns_headers = (
   'User-Agent' => 'Mozilla/4.76 [en] (Win98; U)',
   'Accept' => 'image/gif, image/x-xbitmap, image/jpeg,
        image/pjpeg, image/png, */*',
   'Accept-Charset' => 'iso-8859-1,*,utf-8',
   'Accept-Language' => 'en-US',
  );
  ...
  $response = $browser->get($url, @ns_headers);


   Если Вы не будете использовать этот массив в дальнейшем, Вы можете
   поступить следующим образом:

  $response = $browser->get($url,
   'User-Agent' => 'Mozilla/4.76 [en] (Win98; U)',
   'Accept' => 'image/gif, image/x-xbitmap, image/jpeg,
        image/pjpeg, image/png, */*',
   'Accept-Charset' => 'iso-8859-1,*,utf-8',
   'Accept-Language' => 'en-US',
  );

   Если Вы собираетесь изменить только 'User-Agent'-параметры, Вы можете
   изменить стандартную установку объекта $browser "libwww-perl/5.65"
   (или что-то подобное) на всё что Вы хотите, используя соответствующий
   метод объекта LWP::UserAgent:
   $browser->agent('Mozilla/4.76 [en] (Win98; U)');


Включение Cookies
----------------------------------

   Обычно объект LWP::UserAgent работает как броузер с отключённой
   поддержкой cookies. Существует несколько путей для того, чтобы
   включить такую поддержку, используя метод cookie_jar. "cookie jar" -
   это объект, который, если можно так сказать, олицетворяет собой
   маленькую БД со всеми HTTP cookies, о которых может знать броузер.
   "БД" может быть сохранена на диск (так работает Netscape, используя
   файл cookies.txt), или "висеть" в памяти, при этом весь набор cookies
   будет потерян, как только программа завершит свою работу.

   Для того, чтобы создать пустой объект cookie jar в памяти, вызовите
   cookie_jar метод следующим образом:

         $browser->cookie_jar({});

   Для того, чтобы делать копии cookies в файл на диске, который будет
   содержать весь набор cookies, с которыми работал броузер, после
   завершения программы, вызовите cookie_jar метод следующим образом:

  use HTTP::Cookies;
  $browser->cookie_jar( HTTP::Cookies->new(
    'file' => '/some/where/cookies.lwp',
        #файл обмена
    'autosave' => 1,
        #по завершении, сохранять ли файл
  ));

   Этот файл будет в специфическом формате LWP. Если Вы хотите получить
   доступ к cookies из вашего Netscape-cookies файла, Вы можете
   использовать следующий метод: HTTP::Cookies::Netscape:
  use HTTP::Cookies;

  $browser->cookie_jar( HTTP::Cookies::Netscape->new(
    'file' => 'c:/Program Files/Netscape/Users/DIR-NAME-HERE/cookies.txt',
        # откуда читать куки
  ));

   Вы можете добавить строку 'autosave' => 1 , как мы делали ранее, но в
   момент записи существует вероятность того, что Netscape может отказать
   в записи некоторых cookies обратно на диск.


Отправка данных форм методом POST
---------------------------------

   Многие HTML формы отправляют данные на сервер, используя запрос HTTP
   POST, который вы можете осуществить следующим образом:

 $response = $browser->post( $url,
   [
     formkey1 => value1,
     formkey2 => value2,
     ...
   ],
 );

   Или, если Вам нужно посылать HTTP заголовки:

 $response = $browser->post( $url,
   [
     formkey1 => value1,
     formkey2 => value2,
     ...
   ],
   headerkey1 => value1,
   headerkey2 => value2,
 );

   Например, следующая программа осуществляет поисковый запрос на
   AltaVista (отправкой некоторых данных форм, используя метод HTTP
   POST), и извлекает из теста ответа количество совпадений:

  use strict;
  use warnings;
  use LWP 5.64;
  my $browser = LWP::UserAgent->new;

  my $word = 'tarragon';

  my $url = 'http://www.altavista.com/sites/search/web';
  my $response = $browser->post( $url,
    [ 'q' => $word,  #поисковая фраза
      'pg' => 'q', 'avkw' => 'tgz', 'kl' => 'XX',
    ]
  );
  die "$url error: ", $response->status_line
   unless $response->is_success;
  die "Weird content type at $url -- ", $response->content_type
   unless $response->content_type eq 'text/html';

  if( $response->content =~ m{AltaVista found ([0-9,]+) results} ) {
    #Подстрока будет вида: "AltaVista found 2,345 results"
    print "$word: $1\n";
  } else {
    print "Couldn't find the match-string in the response\n";
  }


Передача данных форм методом GET
--------------------------------

   Некоторые HTML формы передают данные не отправкой методом POST, а
   совершением обыкновенного GET запроса с определённым набором данных в
   конце URL. Например, если Вы пойдёте на http://imdb.com и запустите поиск
   по фразе Blade Runner, то URL, который Вы увидите, будет следующим:
   http://us.imdb.com/Tsearch?title=Blade%20Runner&restrict=Movies+and+TV

   Для запуска такого поиска при помощи LWP, надо сделать следующее:
 
  use URI;
  my $url = URI->new( 'http://us.imdb.com/Tsearch' );
    # создаёт объект, представляющий URL

  $url->query_form(  # Здесь пары ключ => значение:
    'title'    => 'Blade Runner',
    'restrict' => 'Movies and TV',
  );

  my $response = $browser->get($url);

   Смотрите Главу 2, "Формы" книги Perl & LWP для более подробного
   изучения HTML форм, также как и главы с шестой по девятую для
   подробного изучения извлечения данных из HTML.


Преобразование относительных в абсолютые ссылки
-----------------------------------------------

   URI класс, который мы рассмотрели только что, предоставляет множество
   всевозможных функций для работы с различными частями URL (такие как
   определение типа URL - $url->scheme, определение на какой хост он
   ссылается - $url->host, , и так далее на основании документации по
   классам URI. Тем не менее, наиболее интересными являются метод
   query_form, рассмотренный ранее, и теперь метод new_abs для
   преобразования относительной ссылки("../foo.html") в
   абсолютную("http://www.perl.com/stuff/foo.html"):

  use URI;
  $abs = URI->new_abs($maybe_relative, $base);

   Например, рассмотрим эту программку, которая выбирает ссылки из
   HTML-странички сновыми модулями на CPAN:

  use strict;
  use warnings;
  use LWP 5.64;
  my $browser = LWP::UserAgent->new;

  my $url = 'http://www.cpan.org/RECENT.html';
  my $response = $browser->get($url);
  die "Can't get $url -- ", $response->status_line
   unless $response->is_success;

  my $html = $response->content;
  while( $html =~ m/<A HREF=\"(.*?)\"/g ) {
      print "$1\n";
  }


   При запуске она начинает выдавать что-то вроде этого:

  MIRRORING.FROM
  RECENT
  RECENT.html
  authors/00whois.html
  authors/01mailrc.txt.gz
  authors/id/A/AA/AASSAD/CHECKSUMS
  ...

   Но, если Вы хотите получить список абсолютных ссылок Вы можете
   использовать метод new_abs, изменив цикл while следующим образом:

  while( $html =~ m/<A HREF=\"(.*?)\"/g ) {
      print URI->new_abs( $1, $response->base ) ,"\n";
  }

   ($response->base модуля HTTP::Message используется для определения
   базового адреса для преобразования относительных ссылок в абсолютные.)

   Теперь наша программа выдаёт то, что ндо:

  http://www.cpan.org/MIRRORING.FROM
  http://www.cpan.org/RECENT
  http://www.cpan.org/RECENT.html
  http://www.cpan.org/authors/00whois.html
  http://www.cpan.org/authors/01mailrc.txt.gz
  http://www.cpan.org/authors/id/A/AA/AASSAD/CHECKSUMS
  ...

   См. Главу 4, "URLs", книги Perl & LWP для большей информации об
   объектах URI.

   Конечно, использование regexp для выделения адресов является слишком
   прмитивным методом, поэтому для более серьёзных программ следует
   использовать модули "грамматического разбора HTML" подобные
   HTML::LinkExtor или HTML::TokeParser, или, даже может быть,
   HTML::TreeBuilder.


Другие свойства броузера
------------------------

   Объекты LWP::UserAgent имеют множество свойст для управления
   собственной работой.Вот некоторые из них:

     * $browser->timeout(15): Этот метод устанавливает максимальное
       количество времени на ожидание ответа сервера. Если по истечении
       15 секунд(в данном случае) не будет получено ответа, то броузер
       прекратит запрос.

     * $browser->protocols_allowed( [ 'http', 'gopher'] ):
       Устанавливаются типы ссылок, с которыми броузер будет "общаться".,
       в частности HTTP and gopher. Если будет осуществена попытка
       получить доступ к какому-то документу по другому протоколу
       (например, "ftp:", "mailto:", "news:"), то не будет даже попытки
       соединения, а мы получим ошибку 500, с сообщением подобным:
       "Access to ftp URIs has been disabled".

     * use LWP::ConnCache;
       $browser->conn_cache(LWP::ConnCache->new()): После этой установки
       объект броузера пытается использовать HTTP/1.1 "Keep-Alive",
       который ускоряет запросы путем использования одного соединения для
       нескольких запросов к одному и тому же серверу.

     * $browser->agent( 'SomeName/1.23 (more info here maybe)' ):
       Определяем как наш броузер будет идентифицировать себя в строке
       "User-Agent" HTTP запросов. По умолчанию, он
       отсылает"libwww-perl/versionnumber", т.е. "libwww-perl/5.65". Вы
       можете изменить это на более информативное сообщение:
       $browser->agent( 'SomeName/3.14 (contact@robotplexus.int)' );
       Или, если необходимо, Вы можете прикинутся реальным броузером:
       $browser->agent( 'Mozilla/4.0 (compatible; MSIE 5.12; Mac_PowerPC)' );

     * push @{ $ua->requests_redirectable }, 'POST': Устанавливаем наш
       броузер на то, чтобы выполнять переадресацию на POST запросы (так
       делает большинство современных броузеров(IE, NN, Opera)), хотя
       HTTP RFC говорит нам о том, что это вообще-то не должно
       осуществляться.

   Для большей информации читайте полную документацию по
   LWP::UserAgent.


Написание учтивых роботов
-------------------------

   Если Вы хотите убедится, что Ваша программа, основанная на LWP,
   обращает внимание на файлы robots.txt и не делает слишком много
   запросов за короткий период времени Вы можете использовать
   LWP::RobotUA вместо LWP::UserAgent.

   LWP::RobotUA - это почти LWP::UserAgent, и Вы можете использовать его
   также:

  use LWP::RobotUA;
  my $browser = LWP::RobotUA->new(
    'YourSuperBot/1.34', 'you@yoursite.com');
    # Your bot's name and your email address

  my $response = $browser->get($url);

   Но HTTP::RobotUA добавляет следующие возможности:

     * Если robots.txt на сервере, на который ссылается $url, запрещает
       Вам доступ к $url, то тогда объект $browser(учтите, что он
       принадлежит классу LWP::RobotUA) не будет запрашивать его, и мы
       получим в ответ ($response) ошибку 403, содержащую строку
       "Forbidden by robots.txt". Итак, если Вы имеете следующую строчку:
          die "$url -- ", $response->status_line, "\nAborted" unless $response->is_success;
       тогда программа должна завершится сообщением:
          http://whatever.site.int/pith/x.html -- 403 Forbidden by robots.txt
          Aborted at whateverprogram.pl line 1234

     * Если $browser увидит, что общался с этим сервером не так давно, то
       тогда он сдлеает паузу(подобно sleep) для предотвращения
       осуществления большого количества запросов за короткий срок.
       Какова будет задержка? В общем-то, по умолчанию, это - 1 минута,
       но Вы можете контролировать это путём изменения атрибута
       $browser->delay( minutes ).
       Например:
         $browser->delay( 7/60 );
       Это означает, что броузер сделает паузу, когда это будет нужно,
       пока со времени предыдущего запроса не пройдёт 7 секунд.

   Для большей информации читайте полную документацию по LWP::RobotUA.


Использование прокси-серверов
-----------------------------

   В некоторых случаях Вы хотите или Вам необходимо использовать
   прокси-сервера для доступа к определённым сайтам или для использования
   определённого протокола. Наиболее часто такая необходимость возникает,
   когда Ваша LWP-программа запускается на машине, которая находится "за
   firewallом".

   Для того, чтобы броузер использовл прокси, который определён в
   переменных окружения(HTTP_PROXY), вызовите env_proxy перед какими-то
   запросами. В частности:

  use LWP::UserAgent;
  my $browser = LWP::UserAgent->new;

  #И перед первым запросом:
  $browser->env_proxy;

   Для большей информации о параметрах прокси читайте документацию по
   LWP::UserAgent, в частности обратите внимание на методы proxy,
   env_proxy и no_proxy.


HTTP Authentication (идентификация)
----------------------------------

   Многие сайты ограничивают доступ к своим страницам используя "HTTP
   Authentication". Это не просто форма, куда Вы должны ввести свой
   пароль для доступа к информации, это особый механизм, когда HTTP
   серверпосылает броузеру сообщение, которое гласит: "That document is
   part of a protected 'realm', and you can access it only if you
   re-request it and add some special authorization headers to your
   request"("Этот документ является частью защищённой 'области' и Вы
   можете получить доступ к нему, если Вы ещё раз сделаете запрос,
   добавив некоторые специфичные заголовки к Вашему запросу").

   Например, администраторы сайта Unicode.org ограничивают доступ для
   программ сбора emailов к их архивам электронных рассылок, защищая их
   при помощи HTTP Authentication, существует общий логин и пароль для
   доступа(на http://www.unicode.org/mail-arch/)--логин - "unicode-ml" и
   пароль - "unicode".

   Например, рассмотрим этот URL, который является частью защищённой
   области Веб-сайта:
    http://www.unicode.org/mail-arch/unicode-ml/y2002-m08/0067.html

   Ели Вы попытаетесь загрузить эту страничку броузером, то получите
   инструкцию: "Enter username and password for
   'Unicode-MailList-Archives' at server 'www.unicode.org'", или в
   графическом броузере что-то наподобие этого:

       Screenshot of site with Basic Auth required

   В LWP, если Вы запустите следующее:

  use LWP 5.64;
  my $browser = LWP::UserAgent->new;

  my $url =
   'http://www.unicode.org/mail-arch/unicode-ml/y2002-m08/0067.html';
  my $response = $browser->get($url);

  die "Error: ", $response->header('WWW-Authenticate') ||
    'Error accessing',
    #  ('WWW-Authenticate' is the realm-name)
    "\n ", $response->status_line, "\n at $url\n Aborting"
   unless $response->is_success;


   То тогда получите ошибку:

    Error: Basic realm="Unicode-MailList-Archives"
   401 Authorization Required
   at http://www.unicode.org/mail-arch/unicode-ml/y2002-m08/0067.html
   Aborting at auth1.pl line 9.  [or wherever]

   потому что $browser не знает логина и пароля для области
   ("Unicode-MailList-Archives") на хосте("www.unicode.org").
   Наипростейший метод дать узнать броузеру логин и пароль - использовать
   метод credentials. Синтаксис следующий:

  $browser->credentials(
    'servername:portnumber',
    'realm-name',
    'username' => 'password'
  );

   В большинстве случаев порт номер 80 - является TCP/IP портом по
   умолчанию для HTTP; и Вы можете использовать метод credentials до
   каких-либо запросов. Например:

  $browser->credentials(
    'reports.mybazouki.com:80',
    'web_server_usage_reports',
    'plinky' => 'banjo123'
  );

   Итак, если мы добавим следующее сразу после строки $browser = LWP::UserAgent->new; :

  $browser->credentials(  # add this to our $browser 's "key ring"
    'www.unicode.org:80',
    'Unicode-MailList-Archives',
    'unicode-ml' => 'unicode'
  );

   и запустим, то запрос пройдёт.


Accessing HTTPS URLs
--------------------

   Когда Вы хотите получить доступ к странице через HTTPS, то всё будет
   работать как и в случае, если бы мы имели дело с обыкновенным HTTP
   протоколом, если Ваш LWP имеет поддержку HTTPS (через соответствующую
   Secure Sockets Layer library). Например:

  use LWP 5.64;
  my $url = 'https://www.paypal.com/';   # Yes, HTTPS!
  my $browser = LWP::UserAgent->new;
  my $response = $browser->get($url);
  die "Error at $url\n ", $response->status_line, "\n Aborting"
   unless $response->is_success;
  print "Whee, it worked!  I got that ",
   $response->content_type, " document!\n";

   Если Ваш LWP не имеет поддержки HTTPS, тогда ответ будет не удачным и
   Вы получите следующую ошибку:

   Error at https://www.paypal.com/
   501 Protocol scheme 'https' is not supported
   Aborting at paypal.pl line 7.   [or whatever program and line]

   Если Ваш LWP имеет поддержку HTTPS, тогда ответ должен быть удачным, и
   Вы должны отработать с $response как и с клюбым обыкновенным
   HTTP-ответом.

   Для получения информации по установке поддержки HTTPS для LWP
   прочитайте файл README.SSL, который входит в дистрибутив libwww-perl.


Получение больших документов
----------------------------

   Когда Вы запрашиваете большой(или потенциально большой) документ,
   возникает проблема со стандартными действиями с методами запросов
   (подобно $response = $browser->get($url)) с тем, что весь объект
   ответа должен храниться в памяти. Если ответом является 30-мегабайтный
   файл, то это, мягко говоря, не очень хорошо для Вашей оперативной
   памяти и размером Вашего процесса в ней.

   Хорошей альтернативой является сохранение файла на диск, а не в
   память. Синтаксис следующий:

  $response = $ua->get($url,
                         ':content_file' => $filespec,
                      );

   Например,

  $response = $ua->get('http://search.cpan.org/',
                         ':content_file' => '/tmp/sco.html'
                      );

   Когда Вы используете опцию:content_file, объект $response будет иметь
   все нормальные заголовки, однако $response->content будет пустым.

   Отмечу, что опция ":content_file" не поддерживалась старыми версиями
   LWP, поэтому Вы должны принять это во внимание, добавив use LWP
   5.66;для проверки версии LWP, если Вы считаете, что Ваша программа
   может быть запущена на системах с более старыми версиями LWP.

   Если Вы хотите, чтобы программа была совместима с более старыми
   версиями LWP, тогда используйте синтаксис, который позволяет сделать
   тоже самое:

  use HTTP::Request::Common;
  $response = $ua->request( GET($url), $filespec );


Ссылки
------

   Помните, что эта статья - это всего лишь самое первое введение в LWP--
   для более глубокого изучения LWP и задач, связанных с LWP, Вам стоит
   прочитать следующие материалы:
     * LWP::Simple: простые функции для скачивание, рабора заговков и
       зеркалирования адресов.
       http://search.cpan.org/author/GAAS/libwww-perl/lib/LWP/Simple.pm

     * LWP: Обзор модулей libwww-perl.
       http://search.cpan.org/author/GAAS/libwww-perl/lib/LWP.pm

     * LWP::UserAgent: Класс для объектов, которые исполняют роль
       "виртуальных броузеров".
       http://search.cpan.org/author/GAAS/libwww-perl/lib/LWP/UserAgent.pm

     * HTTP::Response: Класс объектов, которые представляют "ответ",
       такой как в $response = $browser->get(...).
       http://search.cpan.org/author/GAAS/libwww-perl/lib/HTTP/Response.pm

     * HTTP::Message и HTTP::Headers: Классы для предоставление
       большего количества методов для HTTP::Response.
       http://search.cpan.org/author/GAAS/libwww-perl/lib/HTTP/Message.pm
       http://search.cpan.org/author/GAAS/libwww-perl/lib/HTTP/Headers.pm
       
     * URI: Класс для объектов, которые представляют собой абсолютные
       или относительные URLы.
       http://search.cpan.org/author/GAAS/URI/URI.pm
       
     * URI::Escape: Функции для работы с escape-последовательностями
       в адресах (например преобразование туда и обратно из "this & that"
       в "this%20%26%20that").
       http://search.cpan.org/author/GAAS/URI/URI/Escape.pm
       
     * HTML::Entities: Функции для работы с
       escape-последовательностями в HTML (например преобразование туда и
       обратно из "C. & E. Bronte" в "C. &amp; E. Bront&euml;").
       http://search.cpan.org/author/GAAS/HTML-Parser/lib/HTML/Entities.pm
       
     * HTML::TokeParser и HTML::TreeBuilder: Классы для
       грамматического разбора("парсинга") HTML.
       http://search.cpan.org/author/GAAS/HTML-Parser/lib/HTML/TokeParser.pm
       http://search.cpan.org/author/SBURKE/HTML-Tree/lib/HTML/Tree.pm 

     * HTML::LinkExtor: Класс для нахождения ссылок в документах.
       http://search.cpan.org/author/GAAS/HTML-Parser/lib/HTML/LinkExtor.pm
     
     * И последнее, но не наименьшее, моя книга Perl & LWP.
       http://www.oreilly.com/catalog/perllwp/
       
     _________________________________________________________________

   Copyright c2002, Sean M. Burke. Translation into Russian by Dmitry Nikolayev.
   You can redistribute this document and/or modify it, but only under
   the same terms as Perl itself.

<< Предыдущая	ИНДЕКС	Поиск в статьях	src	Установить закладку	Перейти на закладку	Следующая >>
Обсуждение
[ RSS ]
1, Ink (?), 21:52, 17/04/2009 [ответить]	+/–
Спасибо большое за статью - очень пригодилась! У меня виснет модем D-Link DSL-2640U, пришла идея перезагружать его, если нет инета. Вот скрипт, который это делает: #! C:/perl64/bin/perl my $url = 'http://ya.ru'; my $reseturl = 'http://30.30.30.1/rebootinfo.cgi'; use LWP::Simple; my $content = get $url; $content ? print "We'r online\n" : get $reseturl;
2, Елена (??), 09:49, 11/09/2009 [ответить]	+1 +/–
Подскажите, плиз, кто может. Есть скрипт на perl, использующий функцию get($url) модуля LWP::Useragent. Скрипт собирает данные с одного веб-сайта. Напрямую (дома через ADSL) работает, а через файрволл (на работе) зависает. Вероятно, нет доступа для какого-то порта. Может кто знает, какой порт надо открыть на файрволле, чтобы это скрипт нормально работал? Спасибо за внимание.
игнорирование участников | лог модерирования
Добавить комментарий
Партнёры:
Хостинг:
Закладки на сайте
Проследить за страницей
Created 1996-2026 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру