Ложка дегтя для Google Чать 2 Идентификация

Существует четыре способа идентификации пользователей и ботов:

  • HTTP referrer;
  • User-Agent;
  • IP-адрес;
  • поведенческий анализ с помощью JavaScript.

Типичный пример идентификации поискового робота в логах HTTP-сервера ты можешь увидеть на соответствующем скриншоте. В целом же, все эти способы можно и нужно использовать вместе, потому что только тогда они дадут максимальную пользу для твоих дорвеев. Теперь поговорим о каждом из способов отдельно. Модели безопасности компьютерных систем, управление доступом и информационными потоками. Хорошие условия для Вас - поппинг боба - осенняя распродажа!.

HTTP referrer

Первый и по праву основной метод — это парсинг и анализ заголовка HTTP referrer.

  1. Откуда на наш дорвей пришел пользователь.
  2. Является ли данный пользователь серчером.

Простейшая реализация проверки реферрера без получения исходного поискового запроса выглядит так:

 

Стоит отметить, что подмена заголовка с реферрером не содержит в себе каких-либо трудностей, поэтому поисковые роботы могут маскировать себя под обычного серчера. В большинстве случаев HTTP referrer у поисковых роботов отсутствует.

User-Agent

Почти каждый HTTP-клиент указывает информацию о себе в поле «User-Agent» заголовка запроса. Этот параметр также не составит труда подменить или просто не указывать. Для лучшего понимания полезности данного заголовка разберем юзерагент гуглобота.

Итак, поисковый робот Google имеет несколько версий и, соответственно, различающийся от версии к версии User-Agent.

Поисковый робот в логах HTTP-сервера:

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Достоверно известно, что иногда Google заходит под видом обычного пользователя, указывая в качестве User-Agent один из популярных браузеров или просто пустое поле. Мы не будем собирать всю базу агентов гугла, а просто проверим все вхождения слова google в юзерагент с помощью одного из простейших способов на PHP:

 

IP-адрес

Для реализации данного способа нам потребуется база IP-адресов гугла. За основу ты можешь взять базу, которую я заботливо положил на наш диск, но учти, что использовать только ее одну крайне нежелательно. Для удобства мы будем использовать базу в виде регулярных выражений, таким образом, у нас появится возможность удобного указания подсетей.

Также у каждого IP-адреса мы будем проверять hostname на наличие в нем слова google:

Данный способ является одновременно самым сложным и самым действенным, поэтому его использование при клоакинге не просто желательно, а обязательно.

Сбор IP-адресов

Так как у гугла постоянно появляются новые подсети IP-адресов, вся сложность предыдущего метода заключается в их сборе и обновлении. Один из способов сбора адресов роботов заключается в создании видимой только для них ссылки на специальный скрипт, сохраняющий IP-адреса всех обращений к этому скрипту.

Чем дольше скрипт будет собирать IP-адреса, тем лучше. Перед началом использования обновленной базы обязательно очисти ее от дублей.

Похожие статьи Меню Опрос Фото Популярное