Задать вопрос

Web-crawling откуда начинать?

Заинтересовал этот раздел, но ни как не могу разобраться откуда начинать копать. Я так понял копать нужно в сторону библиотек grab и scrapy, но информации на русском практически нет, а если и попадается, то как правильно устаревшая. Так же есть документация, так же имеется документация, но опять же это документация, а интересует именно обучение.
  • Вопрос задан
  • 5260 просмотров
Подписаться 9 Оценить Комментировать
Решения вопроса 1
начните с request, для получения кода с сайта, и regexp для парсинга
потом beautifulsoup - увидите разницу и поймете ценность специализированной библиотеки
потом Scrapy - и тоже сделайте для себя выводы

после этого идите на фриланс биржу и берите любой заказ на парсинг и делайте его на более понятном вам инструменте. это может быть даже давно закрытый заказ. но результат не заработок денег а сделать реальную задачу.

после этого Вы сможете уже предложить себя за небольшие деньги, на том же фрилансе.

вот такой путь начинающего джидая. будет трудно, но интересно :)
Ответ написан
Пригласить эксперта
Ответы на вопрос 3
@Nerevar_soul
На русском можно поискать статьи на хабре. Там есть и про grab и про scrapy. Но вообще английский на уровне чтения документации знать нужно обязательно. Без этого будет очень сложно.
На английском кстати есть довольно не плохая книжка. Там в основном используют beautifulsoup и стандартные модули Python. Что как мне кажется лучше для новичка. Есть немного и про scrapy.
А самый лучший способ взять какой-то сайт и спарсить оттуда какие-то данные. Все что не понятно искать в документации и на stackoverflow(если с английским совсем все плохо то Тостер и различные форумы посвященные питону).
Ответ написан
Комментировать
@Prenom
Marketing Super-Mega-Puper Expert, Project Manager
Простейший crawler можно легко накатать используя grab. Ну а дальше копайте взависимости от необходимости. Кстати автор сей библиотеки очень отзывчив на форумах и т.д. Ну а вдобавок есть его авторские статьи на хабре (смотрите всё от хабровчанина lorien).
Ответ написан
Комментировать
@devel787
Возможно, вам будет интересен доклад
"Александр Сибиряков - Frontera: распределенный робот для обхода интернета в больших объемах"
https://youtu.be/hV929rp1YmI
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы