<?xml version="1.0" encoding="koi8-r"?>
<rss version="0.91">
<channel>
    <title>OpenForum RSS: Вытягивание страницы если &apos;донор&apos; отслеживает браузер</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID8/5705.html</link>
    <description>Недавно столкнулась с такой ситуацией :&lt;br&gt;- Нужно было вытянуть страницу для дальнейшей её обработки (отфильтровка/коррекция/замена, и выдача некоторых данных на основе вытянутых).&lt;br&gt;При использовании стандарнтой процеруры на PERL:&lt;br&gt;use LWP::Simple gw(get);&lt;br&gt;$content=get(&quot;http://www.xxx.xx&quot;);&lt;br&gt;- Переменная $content должна содержать текст указанной Web страницы.&lt;br&gt;В подавляющем большинстве случаев - так оно и работает, но...&lt;br&gt;Вот интересный случай,- сервер с которого пытаюсь вытянуть страницу - возвращает какуюто чушь.&lt;br&gt;Есть подозрение, что этот сервер определяет тип браузера, а так как вытаскивает с него не браузер, а Апач , то он выдаёт что-то совсем не то.&lt;br&gt;Как с этим бороться ???&lt;br&gt;Для примера дам URL, содержимое которого нужно корректно загнать в переменную для дальнейшей обработки:&lt;br&gt;http://mooncity.combats.ru/inf.pl?login=КОНДОР&lt;br&gt;http://mooncity.combats.ru/inf.pl?login=Crayza&lt;br&gt;- Ну, в таком духе.&lt;br&gt;&lt;br&gt;Помогите пожалуйста, очень прошу, ночи не сплю, крыша уже едет (((&lt;br&gt;&lt;br&gt;</description>

<item>
    <title>Вытягивание страницы если &apos;донор&apos; отслеживает браузер (kavkaz)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID8/5705.html#5</link>
    <pubDate>Sun, 04 May 2008 04:59:30 GMT</pubDate>
    <description>&amp;gt;- К сожалению - я дерево............... &lt;br&gt;&amp;gt;Мне бы готовое решение , сил нету ((( &lt;br&gt;&lt;br&gt;что то в этом духе&lt;br&gt;http://search.cpan.org/~pmqs/IO-Compress-Zlib-2.009/pod/FAQ.pod&lt;br&gt;&lt;br&gt;&lt;br&gt;</description>
</item>

<item>
    <title>Вытягивание страницы если &apos;донор&apos; отслеживает браузер (Angelika)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID8/5705.html#4</link>
    <pubDate>Tue, 22 Apr 2008 19:50:10 GMT</pubDate>
    <description>- К сожалению - я дерево...............&lt;br&gt;Мне бы готовое решение , сил нету (((&lt;br&gt;</description>
</item>

<item>
    <title>Вытягивание страницы если &apos;донор&apos; отслеживает браузер (angra)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID8/5705.html#3</link>
    <pubDate>Sun, 20 Apr 2008 10:14:59 GMT</pubDate>
    <description>Разъясняю на пальцах. по этой ссылке  http://mooncity.combats.ru/inf.pl?login=Crayza никакого отслеживания браузера не происходит. Браузер получает ту же информацию, что и ваш скрипт или wget(кстати запустите его с --debug и посмотрите). Если бы вы не испугались tcpdump и сделали, как я говорил, то вы бы это и сами увидели. Контент отдается в сжатом виде, браузер знает что дальше с таким контентом делать, а ваш скрипт нет. &lt;br&gt;Если вас интересует что же делать, то готового ответа у меня нет, никогда раньше не приходилось сталкиваться. Но если бы понадобилось, то я бы попробовал указать в хедерах http 1.0 и неприемлимость сжатия или почитал бы rfc по обработке gzip контента и поискал подходящий модуль на CPAN.&lt;br&gt;</description>
</item>

<item>
    <title>Вытягивание страницы если &apos;донор&apos; отслеживает браузер (Angelika)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID8/5705.html#2</link>
    <pubDate>Sat, 19 Apr 2008 17:44:26 GMT</pubDate>
    <description>&amp;gt;Может эта строчка вам подскажет дальнейшее направление поиска: &lt;br&gt;&amp;gt;Content-Encoding: gzip &lt;br&gt;&amp;gt;&lt;br&gt;&amp;gt;Если еще сомневаетесь, то сделайте tcpdump -s 0 -XX host mooncity.combats.ru и &lt;br&gt;&amp;gt;откройте браузером &lt;br&gt;&lt;br&gt;Зделала так (явно указав тип MIME):&lt;br&gt;print header(-type =&amp;gt; &apos;gzip&apos;);&lt;br&gt;&lt;br&gt;- Эффект тот же, кстати, просто http://mooncity.combats.ru&lt;br&gt;- вытягивается нормально и без &apos;gzip&apos;&lt;br&gt;А вот именоо http://mooncity.combats.ru/inf.pl?login=Crayza&lt;br&gt;- уже не хочет нормально вытягиваться (((&lt;br&gt;&lt;br&gt;ПС: Я не профи, просто немного хобби есть по вэб программированию, помогите пожалуйста.&lt;br&gt;Очень тяжело даётся самообразование (((&lt;br&gt;&lt;br&gt;&lt;br&gt;</description>
</item>

<item>
    <title>Вытягивание страницы если &apos;донор&apos; отслеживает браузер (angra)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID8/5705.html#1</link>
    <pubDate>Sat, 19 Apr 2008 16:08:58 GMT</pubDate>
    <description>Может эта строчка вам подскажет дальнейшее направление поиска:&lt;br&gt;Content-Encoding: gzip&lt;br&gt;&lt;br&gt;Если еще сомневаетесь, то сделайте tcpdump -s 0 -XX host mooncity.combats.ru и откройте браузером&lt;br&gt;</description>
</item>

</channel>
</rss>
