toxa_1995
@toxa_1995
Начинающий...

Как правильно спарсить несколько сайтов??

Стоит задача извлечения некоторого текста, соответствующий определенному запросу с различных сайтов. Например, есть сайты словари, толковые словари. Далее извлечение термина определенного слова. Для отдельных сайтов можно сделать, то есть поиск по определенным тегам, но для разных сайтов один и тот же код не подойдет. Как сделать, чтобы один и тот же код парсил различные сайты на более менее нормальном уровне?
  • Вопрос задан
  • 438 просмотров
Пригласить эксперта
Ответы на вопрос 2
NeLexa
@NeLexa
На Java для парсинга рекомендую Jsoup.

Установка через maven:
<dependency>
  <!-- jsoup HTML parser library @ http://jsoup.org/ -->
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.10.2</version>
</dependency>

или gradle:
compile 'org.jsoup:jsoup:1.10.2'

Как сделать, чтобы один и тот же код парсил различные сайты на более менее нормальном уровне?

Стать гугл поиском :)
Ответ написан
Комментировать
@bychok300
Один и тот же код не будет парсить разные сайты одинаково, так как вы парсите по html тегам или xml разметке, не важно, важно то, что вы привязаны к конкретномым названиям объектов, а на разных сайтах они разные

А для парсинга можно использовать Jsoup!
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы