Как язык программирования лучше подойдёт для написания парсеров?

Периодически приходится парсить сайты на 5 - 10 млн. страниц. Раньше делал многопроцессорные парсеры на PHP, и они относительно неплохо справлялись со своей задачей, но мне не даёт покоя мысль, что есть более подходящие для этого языки. Могли бы вы посоветовать наиболее подходящий для этого язык и какой-нибудь мануал по многопоточному парсеру?
  • Вопрос задан
  • 424 просмотра
Пригласить эксперта
Ответы на вопрос 5
@IvanGeso
Релейщик
Честно говоря, не пробовал писать парсеры на чем-то другом, но как по мне, Python - отличный выбор для этой задачи. Смотрите в сторону библиотеки BeautifulSoup 4 или фреймворка Scrapy. Прекрасные инструменты.
Ответ написан
@bacon
Начните с поиска узкого места, где проблема, в получении данных или в их обработке? Может эти процессы у вас не разделены и функции, которые обрабатывают данные, тупо жду, когда они эти данные получат.
Ответ написан
CellycoMobiles
@CellycoMobiles
indi developer @CellycoMobiles
Да и пыхе можно нормально сделать.
Мне в свое время мозги вправил StormCrawler. На сайте есть достаточно подробное описание функционала. Почти все переделал на микросервисы, заменил все компоненты.
На современной Java все летает. Но не для начального уровня конечно.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы