О проекте

Yandex SearchEngine Parser — это инструмент для парсинга результатов поиска Яндекса и анализа содержимого веб-страниц. Он позволяет автоматизировать сбор данных из поисковой выдачи, анализировать ссылки и взаимодействовать с API Яндекса. Проект написан на Python и поддерживает асинхронные операции.

Основные возможности:

Автоматический парсинг поисковой выдачи Яндекса.
Извлечение ссылок и данных с целевых сайтов.
Взаимодействие с API Яндекса для получения данных.
Поддержка отложенных, ночных и дневных запросов Yandex Search API.
Асинхронная архитектура (aiohttp, asyncio)
Защита от превышения лимитов API (RPS control)
Экспорт в CSV

Что и откуда парсит?

Получение HTML поисковой страницы происходит через специальное API Яндекса Search API. Для этого нужно иметь сервисный аккаунт в Yandex Cloud.

После получения страницы происходит сбор всех ссылок на сайты, в которых будет производиться сбор данных.

По каждой ссылке сайта скачивается HTML файл страницы. Далее в нем удаляются ненужные теги с контентом внутри (image, iframe, style, video, ...) для оптимизации поиска. По оставшемуся тексту происходит поиск с помощью регулярных выражений. Ищется номера телефонов в самых разных форматах, email`ы и адреса/геопозиция

Использование

Использование данного парсера описано на странице PyPi, ссылка на которое есть в разделе Примечание

12 April 2025