Просто при контакте с краулером всегда будет напрашиваться такое предложение: краулер может залезть на какие сайты, да, краулер как мощное средство, на какие сайты может залезть, на какие сайты не может залезть. Сегодня скажу, какие сайты могут на него залезть.


1, Новостные сайты


Новостные сайты, все вещи, которые можно увидеть на сайте, могут быть собраны.


Можно собрать: название; автор; время выхода; источник новости; вторичное название; резюме; содержание; видео сайты; ссылки на изображения; язык; тип новости; статус выхода; статус удаления; название сайта; код источника контента.


2、 Веб-сайт по подбору персонала


Веб-сайты по подбору персонала должны подчеркивать, что резюме, за просмотр которых нужно платить, не могут быть получены! Резюме непубличных кандидатов не могут быть собраны!


Можно собирать: название компании; объявления о работе; веб-ссылки; классификация работы; место работы; профессиональные потребности; профиль компании; адрес доставки; отрасль; содержание работы; требования к работе; другая информация.


3、 Сайт форума


На сайте форума можно собрать следующую информацию: сообщения; постеры; время размещения; количество сообщений; количество заинтересованных постеры; содержание сообщения, содержание ответа и так далее.


4、 Сайт электронной коммерции


Сайт электронной коммерции могут быть собраны необходимо связаться с техническим консультантом заранее, просматривать сайт электронной коммерции продукта пользователя номер мобильного телефона не может быть собрана.


Можно собирать содержание: цена; название; ключевые слова; ссылки на фотографии; номер платежа; адрес ссылки и т.д..


5、 Категория поисковой системы


Поисковая система для предоставления пользователям учетной записи и ключевых слов, конфигурация очень проста, сбор недействительных данных будет больше. Собранный контент, безусловно, можно увидеть.


Выше краулер может ползать по сайту, с помощью технологии краулер, мы можем собрать данные, которые мы хотим в короткие сроки. Использование краулеров в сочетании с прокси ip также является хорошим выбором.


(Рекомендуемая операционная система: система windows 7, Python 3.9.1, компьютер DELL G3).

[email protected]