Парсеры 1.1 Help

О проекте

Проект создан для автоматизации поиска и сбора бизнес-информации из баз ФНС. Основная задача — упростить доступ к данным об организациях и ИП, сократить ручной труд и интегрировать результат в существующие аналитические или CRM-системы.

Основная цель

Цель проекта — автоматизация процесса сбора, обработки и структурирования открытых данных о юридических лицах и индивидуальных предпринимателях с официальных ресурсов ФНС России. Решение ориентировано на аналитиков, разработчиков и интеграторов, нуждающихся в быстрой и масштабируемой системе доступа к данным организаций РФ.

Возможности системы

  • Поиск организаций по названию, ФИО ИП или части ИНН/ОГРН

  • Пакетная обработка до 100 результатов на одну страницу запроса

  • Распознавание капчи с помощью ML-модели на базе TensorFlow (средняя точность ~68%)

  • Экспорт результатов в форматах CSV (по умолчанию) и JSON (опционально)

  • Асинхронный режим работы — вся система построена на asyncio и aiohttp, что позволяет обрабатывать множество запросов одновременно

  • Интеграция через API — для Telegram-ботов, внешних CRM и других систем

Технологический стек

Проект построен с использованием современных технологий:

  1. FastAPI — основной backend-фреймворк

  2. SQLite — легковесная база данных для хранения результатов и логов

  3. aiohttp — асинхронные HTTP-запросы к источникам

  4. OpenCV / TensorFlow — капча-решатель на базе нейросети

  5. Asyncio — базовая модель конкурентности

Особенности реализации

  1. Антиблок система:

    • Поддержка ограничения RPS на уровне API и сетевых запросов

    • Повторные попытки запроса при неудачных ответах (retry logic)

    • Автоматическое распознавание капчи без ручного вмешательства

  2. Интеграции:

    • Уведомления о событиях и ошибках

    • Поддержка вывода в CSV

Статистика производительности

  • Поддерживается до 500 запросов в течение 1–5 минут при стандартных настройках

  • Среднее время обработки запроса (включая капчу и разбор): от 1 до 5 минут

  • Работа охватывает все регионы РФ, независимо от субъекта

Использование

Использование данного парсера описано на странице PyPi, ссылка на которое есть в разделе Примечание

12 April 2025