Web-crawling откуда начинать?

Question

Anlight @Anlight

Python

Web-crawling откуда начинать?

Заинтересовал этот раздел, но ни как не могу разобраться откуда начинать копать. Я так понял копать нужно в сторону библиотек grab и scrapy, но информации на русском практически нет, а если и попадается, то как правильно устаревшая. Так же есть документация, так же имеется документация, но опять же это документация, а интересует именно обучение.

Вопрос задан более трёх лет назад
5280 просмотров

Комментировать

Подписаться 9 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

5 комментариев

nirvimel @nirvimel

regexp для парсинга

Даже начинать с этого не стоит. Это неправильный подход к решению, учиться нужно на правильных примерах.

К beautifulsoup можно добавить более мощный и гибкий lxml.

Почему все так залипают на grab и scrapy? По мне так тяжелый фреймворк для парсера больше мешает чем помогает (это не относиться к фреймворкам для UI).

Написано более трёх лет назад
Anlight @Anlight Автор вопроса

Касаемо bs постоянно вижу, что это отвратительная библиотека, медленная и даже при незначительных нагрузках может крашнуться.

Написано более трёх лет назад
Владимир @vintello

Anlight: сколько пользовался - всегда только восторг. все в одном файле и никаких побочных зависимостей

Написано более трёх лет назад
Владимир @vintello

nirvimel: просто хороший повод выучить regexp. без него нынче сложно

Написано более трёх лет назад
throughtheether @throughtheether

поддерживаю пост, поддерживаю рекомендацию lxml

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 23 часа назад
- 61 просмотр
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 83 просмотра
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 277 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 233 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 644 просмотра
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 549 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 307 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 562 просмотра
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 226 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 140 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2015-12-25 11:03:26

начните с request, для получения кода с сайта, и regexp для парсинга
потом beautifulsoup - увидите разницу и поймете ценность специализированной библиотеки
потом Scrapy - и тоже сделайте для себя выводы

после этого идите на фриланс биржу и берите любой заказ на парсинг и делайте его на более понятном вам инструменте. это может быть даже давно закрытый заказ. но результат не заработок денег а сделать реальную задачу.

после этого Вы сможете уже предложить себя за небольшие деньги, на том же фрилансе.

вот такой путь начинающего джидая. будет трудно, но интересно :)

Answer 2 · 2015-12-25 10:42:53

На русском можно поискать статьи на хабре. Там есть и про grab и про scrapy. Но вообще английский на уровне чтения документации знать нужно обязательно. Без этого будет очень сложно.
На английском кстати есть довольно не плохая книжка. Там в основном используют beautifulsoup и стандартные модули Python. Что как мне кажется лучше для новичка. Есть немного и про scrapy.
А самый лучший способ взять какой-то сайт и спарсить оттуда какие-то данные. Все что не понятно искать в документации и на stackoverflow(если с английским совсем все плохо то Тостер и различные форумы посвященные питону).

Answer 3 · 2015-12-25 10:44:22

Простейший crawler можно легко накатать используя grab. Ну а дальше копайте взависимости от необходимости. Кстати автор сей библиотеки очень отзывчив на форумах и т.д. Ну а вдобавок есть его авторские статьи на хабре (смотрите всё от хабровчанина lorien).

Answer 4 · 2015-12-28 16:40:11

Возможно, вам будет интересен доклад
"Александр Сибиряков - Frontera: распределенный робот для обхода интернета в больших объемах"
https://youtu.be/hV929rp1YmI

Web-crawling откуда начинать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт