Какова реализация или советы по реализации чтения и поиск информации с сайта на c++ (Парсер)?

Question

glodev @glodev

Какова реализация или советы по реализации чтения и поиск информации с сайта на c++ (Парсер)?

Идея такова, вводим адрес читаем код страницы, выбираем информацию со страницы допустим ссылки составляем грубо говоря карту и так далее, допустим нужно стартануть с одного сайта собрать все ссылки с него и картинки, и по всем ссылка собрать так-же ссылки и картинки и так пока не скажем стоп.

Интересует реализация чтение html , советы по выборке от туда ( так как некоторые ссылки могут быть скриптами или css (можно отфильтровать по окончанию)), ну и если идеи как реализовать всему этому еще и многопоточность.

Идея создать универсальный парсер который начинается ссылки и расползается собирая информацию в тхт по маске

Вопрос задан более трёх лет назад
452 просмотра

4 комментария

Подписаться 3 Оценить 4 комментария

Толстый Лорри @Free_ze

совет такой: не забывать, что контент может генерится на клиенте посредством js.

А как делать GET-запросы - уйма информации в сети, для любых языков и библиотек.

Написано более трёх лет назад
Александр Титов @alex-t

Вопрос, а зачем С++ ? Скорость системы, скорее всего, будет ограничена откликом исследуемых сайтов.
Если придется вообще работать с браузером, чтобы получить документ после исполнения js, то еще и браузер будет тормозить.
А код на плюсах будет и сложнее, и объемнее.

Написано более трёх лет назад
nirvimel @nirvimel

Если придется вообще работать с браузером

Это уже совсем другая весовая категория. Это уже плохо подходит под категорию "парсер". Это будет скорее скрипт для автоматизации действий через браузер. Производительность и расход памяти будут отличаться на несколько порядков. Получится инструмент под совсем другие задачи. Для быстрого индексирования огромных сетевых "территорий" уже не подойдет.

Написано более трёх лет назад
glodev @glodev Автор вопроса

nirvimel: очень хорошо замечено, темболее для ещё более быстрой обработки лучше откидывать сайты "строительство" которых происходит методом js

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Профессиональная вёрстка на HTML и CSS

3 месяца

Далее
Stepik

Основы HTML и CSS

2 недели

Далее
OTUS

HTML/CSS

3 месяца

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

+2 ещё

Простой
Как подключить SFML к Clion на MacOs?
- 1 подписчик
- 14 окт.
- 72 просмотра
1

ответ
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 112 просмотров
0

ответов
C++

Средний
Как определить виртуальные методы в полной специализации шаблона?
- 1 подписчик
- 13 окт.
- 58 просмотров
1

ответ
C++

+1 ещё

Простой
Только начинаю изучать Qt, не знаю как убрать ошибки :-1: ошибка: collect2.exe: error: ld returned 1 exit status?
- 1 подписчик
- 12 окт.
- 102 просмотра
0

ответов
C++

Простой
Какую библиотеку использовать для отображения OHLC свечей в приложении на C++?
- 1 подписчик
- 11 окт.
- 78 просмотров
0

ответов
C++

Простой
Можно ли собрать curl с подпапкой для дополнений?
- 3 подписчика
- 09 окт.
- 99 просмотров
1

ответ
HTML

+1 ещё

Простой
Как в руководстве steam сделать обтекающий картинку текст?
- 1 подписчик
- 08 окт.
- 123 просмотра
1

ответ
C++

+1 ещё

Простой
Как обезопасить секрет в памяти?
- 2 подписчика
- 04 окт.
- 271 просмотр
3

ответа
C++

+1 ещё

Простой
Какую библиотеку для excel c++ посоветуете?
- 3 подписчика
- 01 окт.
- 375 просмотров
1

ответ
HTML

+1 ещё

Средний
Скачал плагин image preview в вс коде, чтобы установить иконку сайта. Иконка появилась в браузере, но не появилась слева напротив строки. Почему так?
- 1 подписчик
- 30 сент.
- 143 просмотра
1

ответ
Показать ещё Загружается…

Верстальщик / фронтендер для браузерного расширения

DevTeam.Space

от 1 000 до 2 000 $

Web-разработчик

ЭНДИ Консалтинг

от 40 000 до 40 000 ₽

Backend разработчик

Страна карт • Киров

от 150 000 до 250 000 ₽

совет такой: не забывать, что контент может генерится на клиенте посредством js.

А как делать GET-запросы - уйма информации в сети, для любых языков и библиотек.
Вопрос, а зачем С++ ? Скорость системы, скорее всего, будет ограничена откликом исследуемых сайтов.
Если придется вообще работать с браузером, чтобы получить документ после исполнения js, то еще и браузер будет тормозить.
А код на плюсах будет и сложнее, и объемнее.
Если придется вообще работать с браузером

Это уже совсем другая весовая категория. Это уже плохо подходит под категорию "парсер". Это будет скорее скрипт для автоматизации действий через браузер. Производительность и расход памяти будут отличаться на несколько порядков. Получится инструмент под совсем другие задачи. Для быстрого индексирования огромных сетевых "территорий" уже не подойдет.
nirvimel: очень хорошо замечено, темболее для ещё более быстрой обработки лучше откидывать сайты "строительство" которых происходит методом js

Answer 1 · 2017-06-08 13:11:46

Закачка страниц из сети при помощи libcurl.
Разбор страниц в DOM при помощи libxml2 (или libxml++).
Выборка интересующих элементов (ссылки, картинки, и.т.д.) при помощи XPath запросов к DOM.
Многопоточность: заброс новых ссылок в общую очередь + пул потоков, выбирающих себе задания из этой очереди и отрабатывающих по пунктам 1, 2, 3.

так как некоторые ссылки могут быть скриптами или css

С этим нет никакой проблемы. XPath //a выбирет только реальные ссылки на страницы, по которым возможно перейти.

Какова реализация или советы по реализации чтения и поиск информации с сайта на c++ (Парсер)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт