Парсеры 1.1 Help

О проекте

Yandex SearchEngine Parser — это инструмент для парсинга результатов поиска Яндекса и анализа содержимого веб-страниц. Он позволяет автоматизировать сбор данных из поисковой выдачи, анализировать ссылки и взаимодействовать с API Яндекса. Проект написан на Python и поддерживает асинхронные операции.

Основные возможности:

  • Автоматический парсинг поисковой выдачи Яндекса.

  • Извлечение ссылок и данных с целевых сайтов.

  • Взаимодействие с API Яндекса для получения данных.

  • Поддержка отложенных, ночных и дневных запросов Yandex Search API.

  • Асинхронная архитектура (aiohttp, asyncio)

  • Защита от превышения лимитов API (RPS control)

  • Экспорт в CSV

Что и откуда парсит?

Получение HTML поисковой страницы происходит через специальное API Яндекса Search API. Для этого нужно иметь сервисный аккаунт в Yandex Cloud.

После получения страницы происходит сбор всех ссылок на сайты, в которых будет производиться сбор данных.

По каждой ссылке сайта скачивается HTML файл страницы. Далее в нем удаляются ненужные теги с контентом внутри (image, iframe, style, video, ...) для оптимизации поиска. По оставшемуся тексту происходит поиск с помощью регулярных выражений. Ищется номера телефонов в самых разных форматах, email`ы и адреса/геопозиция

Использование

Использование данного парсера описано на странице PyPi, ссылка на которое есть в разделе Примечание

12 April 2025