Какова реализация или советы по реализации чтения и поиск информации с сайта на c++ (Парсер)?
Идея такова, вводим адрес читаем код страницы, выбираем информацию со страницы допустим ссылки составляем грубо говоря карту и так далее, допустим нужно стартануть с одного сайта собрать все ссылки с него и картинки, и по всем ссылка собрать так-же ссылки и картинки и так пока не скажем стоп.
Интересует реализация чтение html , советы по выборке от туда ( так как некоторые ссылки могут быть скриптами или css (можно отфильтровать по окончанию)), ну и если идеи как реализовать всему этому еще и многопоточность.
Идея создать универсальный парсер который начинается ссылки и расползается собирая информацию в тхт по маске
Вопрос, а зачем С++ ? Скорость системы, скорее всего, будет ограничена откликом исследуемых сайтов.
Если придется вообще работать с браузером, чтобы получить документ после исполнения js, то еще и браузер будет тормозить.
А код на плюсах будет и сложнее, и объемнее.
Это уже совсем другая весовая категория. Это уже плохо подходит под категорию "парсер". Это будет скорее скрипт для автоматизации действий через браузер. Производительность и расход памяти будут отличаться на несколько порядков. Получится инструмент под совсем другие задачи. Для быстрого индексирования огромных сетевых "территорий" уже не подойдет.