@vetalmatitskiy
testing engineer

Какие существуют подходы для извлечения данных с веб-сайтов?

Доброго дня, уважаемые гуру разработки
подскажите, пожалуйста, какие есть общие подходы для программного извлечения данных с веб-сайтов? Нужно написать скрипт(например на python/groovy) который просканировав ресурс en.wiktionary.org сохранил бы в файл имена существительные с него
  • Вопрос задан
  • 487 просмотров
Пригласить эксперта
Ответы на вопрос 2
sim3x
@sim3x
Для сбора страниц (crawling, scraping) используется scrapy.org в него "встроен" парсер html - https://pypi.python.org/pypi/lxml/ lxml.de

но для вики лайк ресурсов такое делать не нужно https://dumps.wikimedia.org/
Ответ написан
Комментировать
@lPolar
data scientist
Процесс сбора называется парсингом сайтов.
Возьмите grab (bs4,requests,mechanize) и читайте статьи на хабре - там все описано.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
SpectrumData Екатеринбург
от 150 000 до 200 000 ₽
Гринатом Москва
от 150 000 ₽
DIGITAL SECTOR Краснодар
от 150 000 до 250 000 ₽
23 июн. 2024, в 07:50
40000 руб./за проект
23 июн. 2024, в 07:31
600 руб./в час
23 июн. 2024, в 05:23
1500 руб./за проект