Этот вопрос закрыт для ответов, так как повторяет вопрос На чем писать парсер сайтов? на PHP или Ruby?

Как язык программирования лучше подойдёт для написания парсеров?

Периодически приходится парсить сайты на 5 - 10 млн. страниц. Раньше делал многопроцессорные парсеры на PHP, и они относительно неплохо справлялись со своей задачей, но мне не даёт покоя мысль, что есть более подходящие для этого языки. Могли бы вы посоветовать наиболее подходящий для этого язык и какой-нибудь мануал по многопоточному парсеру?
  • Вопрос задан
  • 450 просмотров
Решения вопроса 1
Lillipup
@Lillipup
Allons-y, Алонсо!
Python с Scrapy или beautifulsoup
Ответ написан
Пригласить эксперта
Ответы на вопрос 4
@IvanGeso
Релейщик
Честно говоря, не пробовал писать парсеры на чем-то другом, но как по мне, Python - отличный выбор для этой задачи. Смотрите в сторону библиотеки BeautifulSoup 4 или фреймворка Scrapy. Прекрасные инструменты.
Ответ написан
@bacon
Начните с поиска узкого места, где проблема, в получении данных или в их обработке? Может эти процессы у вас не разделены и функции, которые обрабатывают данные, тупо жду, когда они эти данные получат.
Ответ написан
CellycoMobiles
@CellycoMobiles
indi developer @CellycoMobiles
Да и пыхе можно нормально сделать.
Мне в свое время мозги вправил StormCrawler. На сайте есть достаточно подробное описание функционала. Почти все переделал на микросервисы, заменил все компоненты.
На современной Java все летает. Но не для начального уровня конечно.
Ответ написан
Ваш ответ на вопрос

Вопрос закрыт для ответов и комментариев

Потому что уже есть похожий вопрос.
Похожие вопросы