@voix_kas

Какие компоненты использовать для многопоточного парсинга HTML на VC++, используя прокси?

Постановка задачи: необходимо на ежедневной основе парсить большое количество web-сайтов (>100 сайтов, >1000 страниц) и извлекать из них информацию о продуктах. Скажем, интернет-магазины. Нужна многопоточная работа с использованием прокси (одна страница (не сайт) - один прокси).

Собственно вопрос - посоветуйте, пожалуйста, полную "обвязку" конечного решения с ориентацией на:
  1. Производительность и экономичность (чтобы запускать несколько потоков на одной машине/канале связи).
  2. Стабильность и совместимость (пагинации, фреймы, unicode и все остальные особенности версток).
  3. Безопасность (например, вместе со страницей передаётся деструктивный код/вирус).


Какие компоненты использовать для работы с HTML? CsQuery/HtmlAgilityPack... Как обращаться к сайтам через заранее купленные прокси? Поддерживают ли компоненты для работы с HTML прокси или для использования прокси нужна дополнительная "прокладка"?

Буду дико благодарен за подробное описание и последовательность действий (я не профессиональный программист).

ЯП/среда разработки - VC++ 2015. Понимаю, что возможно, это не лучший ЯП для решения таких задач. Но прошу вопрос выбора/смены ЯП не поднимать. Интересует только VC++.
  • Вопрос задан
  • 152 просмотра
Пригласить эксперта
Ответы на вопрос 1
@ilyakmet
Обрабатывал на Python 2.7 1кк страниц, использовал from multiprocessing import Pool. Посмотри мои опоросы, там где то были ссылки.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы