Разные веб-сайты имеют разные стратегии защиты от сканирования и имеют разные ограничения для сканеров. В целом их можно разделить на следующие три категории:


1. Настройте не возвращаться на веб-страницу или отложить время возврата

Традиционный метод антисканера заключается в том, чтобы не возвращать веб-страницу, то есть сканер отправляет запрос соответствующему веб-сайту, а веб-сайт возвращает страницу 404, что указывает на то, что сервер не может нормально предоставить информацию или сервер не отвечает. ; сайт также может долгое время не возвращать данные, а это значит, что краулер запрещен.


2. Возвращенная веб-страница не является целевой веб-страницей

Помимо того, что страницы не возвращаются, существуют сканеры, которые возвращают нецелевые страницы, то есть веб-сайт возвращает ложные данные, например, возвращает пустую страницу или возвращает одну и ту же страницу при сканировании нескольких страниц. Если ваш сканер работает без сбоев, вы с удовольствием займетесь другими делами. После получаса поиска вы обнаружите, что результаты поиска для каждой страницы одинаковы, и это фейковый сайт.


Например, на странице тарифов Qunar.com цены, указанные онлайн, отличаются от исходного кода html. Например, цена билета, указанная онлайн, составляет 530 юаней, а цена билета в исходном коде html — 538 юаней. Помимо Qunar.com, этот метод также используют Maoyan Movies и Douyu Live, и полученные цифры отличаются от реальных.


3. Увеличьте сложность доступа

Веб-сайт также будет защищен от сканирования, что затруднит получение данных. Вообще говоря, войдя в систему, можно увидеть данные и установить код подтверждения. Чтобы ограничить количество сканеров, веб-сайты могут попросить вас войти в систему и ввести код подтверждения для доступа, независимо от того, являетесь ли вы реальным пользователем. Например, чтобы ограничить автоматическое получение билетов, 12306 внедрил функцию строгого кода проверки, требующую от пользователей правильного выбора среди 8 изображений.


Эти три ситуации очень распространены в мире рептилий. Для бесперебойной работы сканерам необходимо разработать различные стратегии борьбы с сканированием, основанные на различных реальных ситуациях.

[email protected]