@vetalmatitskiy
testing engineer

Какие существуют подходы для извлечения данных с веб-сайтов?

Доброго дня, уважаемые гуру разработки
подскажите, пожалуйста, какие есть общие подходы для программного извлечения данных с веб-сайтов? Нужно написать скрипт(например на python/groovy) который просканировав ресурс en.wiktionary.org сохранил бы в файл имена существительные с него
  • Вопрос задан
  • 487 просмотров
Пригласить эксперта
Ответы на вопрос 2
sim3x
@sim3x
Для сбора страниц (crawling, scraping) используется scrapy.org в него "встроен" парсер html - https://pypi.python.org/pypi/lxml/ lxml.de

но для вики лайк ресурсов такое делать не нужно https://dumps.wikimedia.org/
Ответ написан
Комментировать
@lPolar
data scientist
Процесс сбора называется парсингом сайтов.
Возьмите grab (bs4,requests,mechanize) и читайте статьи на хабре - там все описано.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы