Постановка задачи: необходимо на ежедневной основе парсить большое количество web-сайтов (>100 сайтов, >1000 страниц) и извлекать из них информацию о продуктах. Скажем, интернет-магазины. Нужна многопоточная работа с использованием прокси (одна страница (не сайт) - один прокси).
Собственно вопрос - посоветуйте, пожалуйста, полную "обвязку" конечного решения с ориентацией на:
- Производительность и экономичность (чтобы запускать несколько потоков на одной машине/канале связи).
- Стабильность и совместимость (пагинации, фреймы, unicode и все остальные особенности версток).
- Безопасность (например, вместе со страницей передаётся деструктивный код/вирус).
Какие компоненты использовать для работы с HTML? CsQuery/HtmlAgilityPack... Как обращаться к сайтам через заранее купленные прокси? Поддерживают ли компоненты для работы с HTML прокси или для использования прокси нужна дополнительная "прокладка"?
Буду дико благодарен за подробное описание и последовательность действий (я не профессиональный программист).
ЯП/среда разработки - VC++ 2015. Понимаю, что возможно, это не лучший ЯП для решения таких задач. Но прошу вопрос выбора/смены ЯП не поднимать. Интересует только VC++.