Адміністратори помічають наплив шкідливих запитів від ботів, які видають себе за Googlebot та інших легітимних сканерів, намагаючись обійти захист веб-сайту. Google пропонує інструменти перевірки IP-адрес, щоб допомогти ідентифікувати своїх сканерів.
«У червні цього року шлюзи відчинилися», – написав Зібенманн у блозі.
«Протягом тижнів я бачу сотні запитів на день, які стверджують, що надходять від Googlebot (а в деякі дні — тисячі запитів). Запити надходять з різних IP-адрес від різних провайдерів, які, на мою думку, переважно або повністю є хмарними та хостинг-провайдерами».
Веб-сканери Google вже давно користуються перевагами з боку веб-сайтів, оскільки їх поява в результатах пошуку призводить до збільшення трафіку. Більшість веб-сайтів, навіть ті, що агресивно блокують сканери, часто налаштовані так, щоб ніколи не блокувати Googlebot.
Зібенманн випадково помітив цю атаку, оскільки експерт налаштував свої вебсайти на блокування фальшивих ботів за межами опублікованих діапазонів IP-адрес Google. Це дозволило легко відрізнити фальшиві запити Googlebot від законних.
Спроби видавати себе за Googlebot та інших легітимних великих пошукових роботів спостерігалися й раніше. Однак автор зазначає, що вони були досить рідкісними. До червня «лише кілька спроб час від часу» потрапляли на вебсайти Зібенманна.
Зібенманн підозрює одну, але масштабну кампанію. Багато IP-адрес використовуються одночасно, кожна з яких робить лише кілька запитів як Googlebot, а коли вони не вдаються, деякі повторюють спробу з іншим рядком User-agent.
IP-адреси охоплюють різноманітних провайдерів – більшість запитів надходить від HostRoyale, M247, Latitude.sh, Web2Objects та AWS.
Googlebot — найпоширеніший бот Google, який сканує та індексує веб-сторінки, перш ніж вони з’являться в результатах пошуку
Google опублікував ресурси, які допомагають розробникам перевіряти запити від своїх сканерів та програм для вибору даних. Одноразовий пошук DNS можна виконати за допомогою інструмента командного рядка, а для автоматизованих рішень зіставлення доступні діапазони IP-адрес.
«Це корисно, якщо ви стурбовані тим, що спамери чи інші порушники спокою отримують доступ до вашого сайту, стверджуючи, що вони від Google», – йдеться в документації.
Обсяг HTML-трафіку ботів вже перевищив людський трафік і швидко стає реальними витратами для власників веб-серверів, а не проблемою. Боти споживають пропускну здатність, уповільнюють роботу веб-сайтів для легітимних користувачів, парсять та крадуть контент для навчання LLM і не приносять жодної реальної користі власникам веб-сайтів.
Водночас деякі власники веб-сайтів, зокрема Зібенманн, переглядають питання про те, чи вартий Googlebot винятків, оскільки пошук Google переходить від традиційних 10 синіх посилань, які спрямовують трафік, до відповідей, згенерованих штучним інтелектом, які надсилають значно менше трафіку та часто неправильно цитують джерела.
«Пошук Google базується на соціальному договорі: їхні боти можуть сканувати наші сайти, вони можуть індексувати наші сайти та вони можуть показувати уривки наших сайтів, тому що, і «лише тому», що вони надсилають людей на наші сайти. Наші сайти, наші слова, з нашим дизайном, з нашими посиланнями, з нашим контекстом та нашою естетикою поширюються так, як ми хочемо ними ділитися», – раніше написав Пол Кантрелл, фахівець з інформатики, на одному з серверів Mastodon.
Деякі власники веб-сайтів тепер вважають, що Google порушує їхню частину цієї соціальної угоди.