Как язык программирования лучше подойдёт для написания парсеров?
Периодически приходится парсить сайты на 5 - 10 млн. страниц. Раньше делал многопроцессорные парсеры на PHP, и они относительно неплохо справлялись со своей задачей, но мне не даёт покоя мысль, что есть более подходящие для этого языки. Могли бы вы посоветовать наиболее подходящий для этого язык и какой-нибудь мануал по многопоточному парсеру?
Честно говоря, не пробовал писать парсеры на чем-то другом, но как по мне, Python - отличный выбор для этой задачи. Смотрите в сторону библиотеки BeautifulSoup 4 или фреймворка Scrapy. Прекрасные инструменты.
Да и пыхе можно нормально сделать.
Мне в свое время мозги вправил StormCrawler. На сайте есть достаточно подробное описание функционала. Почти все переделал на микросервисы, заменил все компоненты.
На современной Java все летает. Но не для начального уровня конечно.