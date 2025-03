2.87 , нах. ( ? ), 17:36, 21/03/2025 [^] [^^] [^^^] [ответить] + / – > Такие вот приоритетные задачи, что вместо обычного бана через фаервол, который реализуется

> за час, да за две секунды - deny any, ok Внезапно, человек вместо этого хотел осложнить жизнь - ботов, а не нормальных посетителей своего сайта. И, похоже, неплохой инструмент нашел, делающий именно то что и требовалось. > Но есть отличный выход: спрятать всё за форму логина и без аккаунта не пущать. а дура4ок с опеннета все продолжает вещать как бы он всем пакостей понаделал. Но к счастью ты не ДеВолт и твой сервер не нужен абсолютно никому, кроме может ИИ. 3.95 , Аноним ( 95 ), 17:53, 21/03/2025 [^] [^^] [^^^] [ответить] + / – > Но к счастью ты не ДеВолт и твой сервер не нужен абсолютно никому Так и сайт ДеВолта не нужен абсолютно никому, что он ложится от пары запросов от скраппера. > и твой сервер не нужен абсолютно никому, кроме может ИИ Это получается, что у Анонима сайт даже более нужный, ибо не ложится от пары запросов от скраппера

4.97 , нах. ( ? ), 17:59, 21/03/2025 [^] [^^] [^^^] [ответить] + / – > Так и сайт ДеВолта не нужен абсолютно никому, что он ложится от пары запросов от

> скраппера. раз скраппер его нашел - значит, таки нужен. > Это получается, что у Анонима сайт даже более нужный, ибо не ложится от пары запросов от

> скраппера просто этот сайт настолько никому не нужен, что и скраппер после второго запроса уходит, расстроенный. 2.100 , fuggy ( ok ), 18:05, 21/03/2025 [^] [^^] [^^^] [ответить] + / – Проблема в том что они мешают обычным пользователям создавая паразитную нагрузку. Если бы они не ломились толпой и ходили только в ночное время и с соблюдением таймаутов, никто бы может и дела бы не обратил. Так значит не работает файрвол. Вон пишут же что банишь по ip, так они на другие подсети переходят. Да robots.txt рекомендации и плохо что их не делают стандартами. Как в целом и остальные RFC для http рекомендуемые: "The key words SHOULD - This word, or the adjective "RECOMMENDED". Хотя вроде что-то специально для ai ботов хотели придумать.

3.101 , Аноним ( 13 ), 18:26, 21/03/2025 [^] [^^] [^^^] [ответить] –1 + / – >Если бы они не ломились толпой А вы откуда знаете, кто ломится толпой? Если вас будет парсить две независмые группы, как вы поймёте что их две, а не одна?

>и ходили только в ночное время А ночное время это когда? Всё же часовые пояса сущестуют

>и с соблюдением таймаутов А где это прописывается, чтобы бот мог узнать максимальную частоту запросов?

4.129 , fuggy ( ok ), 20:35, 21/03/2025 [^] [^^] [^^^] [ответить] + / – > две независмые группы, как вы поймёте что их две Вот cloudflare как то научился. Например, если "перебирают каждую страницу в git log из разных подсетей. > ночное время это когда Зависит от языка сайта. Например для русскоязычных сайтов пик это по московскому времени. Если нет, то можно просто размазать равномерно. > бот мог узнать максимальную частоту запросов robots.txt crawl-delay или для поисковиков можно прямо у них на сайте прописать что краулить мой сайт не чаще чем X. Да это всё только рекомендации. Или взять адекватные рекомендуемые 1-5-10 секунд, а не 10 раз в секунду.

5.137 , Аноним ( 13 ), 21:13, 21/03/2025 [^] [^^] [^^^] [ответить] + / – >Если нет, то можно просто размазать равномерно. Как минимум для англоязычных это единственный возможный вариант

>robots.txt crawl-delay Осталось только посмотреть, где их заполняют, у того же sourcehut.org/robots.txt - 404, то есть вообще ничего нет

>Или взять адекватные рекомендуемые 1-5-10 секунд, а не 10 раз в секунду. Чем определяется данная адекватность? Это насколько сложной должна быть страница, чтобы уже дважды в секунду было неадекватным?

4.130 , нах. ( ? ), 20:35, 21/03/2025 [^] [^^] [^^^] [ответить] + / – > А где это прописывается, чтобы бот мог узнать максимальную частоту запросов? Уровень экспертизы... 5.138 , Аноним ( 13 ), 21:16, 21/03/2025 [^] [^^] [^^^] [ответить] –1 + / – Кексперд видимо сам ни разу не смотрел в robots.txt. У того же sourcehut.org/robots.txt - 404. www.opennet.ru/robots.txt - тоже никаких намёков

6.141 , нах. ( ? ), 21:20, 21/03/2025 [^] [^^] [^^^] [ответить] + / – > Кексперд видимо сам ни разу не смотрел в robots.txt. У того же

> sourcehut.org/robots.txt - 404. www.opennet.ru/robots.txt - тоже никаких намёков Какое отношение это имеет к твоему незнанию "где прописывается"? Очевидно что ни у опеннета ни у Sh нет никаких специфических мест которые нельзя показывать роботам. (а регекспы в этом файле не обрабатываются)

Но речь об обычных роботах, которые и так стараются не создавать проблем. А необычные все равно не собираются этот файл проверять. 7.142 , Аноним ( 13 ), 21:26, 21/03/2025 [^] [^^] [^^^] [ответить] + / – >Какое отношение это имеет к твоему незнанию "где прописывается"? О наставник, просветите меня

>Очевидно что ни у опеннета ни у Sh нет никаких специфических мест которые нельзя показывать роботам Тогда в чём проблема, что их сканнирует ИИ бот?

3.132 , нах. ( ? ), 20:48, 21/03/2025 [^] [^^] [^^^] [ответить] + / – > обратил. Так значит не работает файрвол. Вон пишут же что банишь

> по ip, так они на другие подсети переходят. У яндекса научились. В свое время, когда я растерял там все контакты людей, имевших право думать своей головой, кто уехал, кто умер - оно в очередной раз охренело.

Обычные сайты это не сильно затронуло, но у нас были необычные, и нам прилетело по полной. Э... кто не понимает - например, народру (почему не ложился народ? А потому что это был внутренний сайт яндекса и его они сканили не через веб вообще. Да, их бот так может.)

Техподдержка делала круглые глазыньки и вид что вообще не понимает о чем речь. Что ж ... давайте забаним их блоки. ОГО! Нихреновый за пару дней вырос списочек (когда эта хрень не может пробиться - она так просто не сдается, поднимает новые и новые зомбонеты, по всему миру, до этого тихо спавшие).

Что ж... random drop probability 93% Все довольны - яндекс перестал создавать нам сумасшедшую нагрузку, хомякопейджи продолжают индексироваться, громадный кластер т-по висит (потому что drop а не reject) на хэндшейках, одаренной молоди тогда еще не израильского предпринимателя казахского происхождения совершенно похрен, электричество и серверы в стойках для них бесплатные и в любом количестве. Пару лет, до моего ухода, так и работало, яндекс у себя ничего не исправил. > Да robots.txt рекомендации и плохо что их не делают стандартами. на стандарты эти "Мне ННННАДА!" точно так же забьют. Они понимают только палкой по хребту. 4.143 , Аноним ( 13 ), 21:28, 21/03/2025 [^] [^^] [^^^] [ответить] + / – >Что ж ... давайте забаним их блоки У них useragent постоянный? Post запросы шлют или только get?