serg_small_developer
@serg_small_developer
Начинающий прогер

Какой парсер самый быстрый по сравнению с другими языками?

Всем привет.
Не могу никак определиться на чем написать парсер
Есть задача - написать парсер, который будет сканировать примерно 1М страниц (несколько десятков разных сайтов) периодически повторяя скан, сохранять изменения в базу

Перечитал много чего.
И все пишут в ответ на вопрос - "На чем написать парсер", что нужно писать на том что лучше всего знаешь, но я задам вопрос чуток по другому

Больше всего я работаю с PHP, но писать на нем такой парсер я не хочу, из-за маленькой скорости работы (проверял сам - писал парсер)

У меня в планах выучить новый язык и учить, как известно, лучше всего на практике.

Вот мой вопрос - на каком языке лучше всего написать парсер который будет БЫСТРО работать (по сравнению с другими ЯП), с большим количеством данных
Повторюсь важна скорость и возможность в кратчайшие сроки спарсить большое количество данных.

Я не жду готовых решений, а всего лишь хочу узнать, кто на чем пишет. Может сравнивал скорость работы разных парсеров и т.д.
Хочу узнать свежую информацию потому что в рунете нахожу статьи только годичной и больше давности.

Прошу прощения если некорректно задан вопрос)
  • Вопрос задан
  • 1455 просмотров
Решения вопроса 6
@IllusionTurtle
Если вы имеете ввиду парсер web страниц в интернете, то "узким" местом у вам будет не язык а сетевые запросы к этим страницам.
Также стоит учесть, что подобные задачи лучше решать во множество потоков, где php будет не столь удобен как go или nodejs.
Ответ написан
sim3x
@sim3x
Не важно на чем писать - важно какие библиотеки есть у ЯП для парсинга

У питона есть scrapy

Большой скорости достичь не получится - сайтов мало, если поставить много потоков для скачки - сайт-донор упадет или заблокирует вас

Самая большая задержка при скрапинге - задержка на сети, задержка сайта, резолв днс
Они сложнорешаемы

Парсинг страниц будет занимать десятки мс и менее, тогда как ответ сайта - сотни мс и более
Ответ написан
@AlexSku
Программист по автоматике
Дмитрий Сошников показывает, что функциональный подход (у него F#, но лично мне больше нравится Haskell) очень удобен.
Ответ написан
@screen_sailor
The Screen Is Not Enough
Пригласить эксперта
Ответы на вопрос 1
rusellsystems
@rusellsystems
CEO
Вот мой пост давний про парсинг сайтов с JavaScript, а так же я тестировал всё это на Linux серверах с rabbitmq, полгода сеть работала пока не надоело Я ознакомился с сайтом и обнаружил там много JavaS...
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы