О проекте
Yandex SearchEngine Parser — это инструмент для парсинга результатов поиска Яндекса и анализа содержимого веб-страниц. Он позволяет автоматизировать сбор данных из поисковой выдачи, анализировать ссылки и взаимодействовать с API Яндекса. Проект написан на Python и поддерживает асинхронные операции.
Основные возможности:
Автоматический парсинг поисковой выдачи Яндекса.
Извлечение ссылок и данных с целевых сайтов.
Взаимодействие с API Яндекса для получения данных.
Поддержка отложенных, ночных и дневных запросов Yandex Search API.
Асинхронная архитектура (aiohttp, asyncio)
Защита от превышения лимитов API (RPS control)
Экспорт в CSV
Что и откуда парсит?
Получение HTML поисковой страницы происходит через специальное API Яндекса Search API. Для этого нужно иметь сервисный аккаунт в Yandex Cloud.
После получения страницы происходит сбор всех ссылок на сайты, в которых будет производиться сбор данных.
По каждой ссылке сайта скачивается HTML файл страницы. Далее в нем удаляются ненужные теги с контентом внутри (image, iframe, style, video, ...) для оптимизации поиска. По оставшемуся тексту происходит поиск с помощью регулярных выражений. Ищется номера телефонов в самых разных форматах, email`ы и адреса/геопозиция
Использование
Использование данного парсера описано на странице PyPi, ссылка на которое есть в разделе Примечание