@iiideb
Пишу роботов на html

Какие знания нужно иметь, чтобы писать парсер на Python?

Почти выучил основу Python. Что нужно будет учить, чтобы свободно писать парсер сайтов на Python? И какие ресурсы лучше для этого подходят.
  • Вопрос задан
  • 1307 просмотров
Пригласить эксперта
Ответы на вопрос 4
Vlad_IT
@Vlad_IT
Front-end разработчик
Ваш вопрос звучит так "Какие знания нужно иметь, чтобы создавать транспортные средства?". Парсеры бывают разные, где-то просто собрать кусок текста из блока (хватит обычного requests), где-то скопировать материалы с множества страниц (удобнее уже Scrapy, lxml), где-то будет мешать авторизация, где-то будет мешать капча (нужно писать распознание капчи или использовать платные API для распознания капчи), где-то уже будут серьезные защиты от парсинга.
Пишите простые парсеры, потом потихоньку переходите к более сложным, там будете уже понимать, какие штуки нужны.
Ответ написан
Комментировать
Mi11er
@Mi11er
A human...
Я начинал с Requests + bs4 .
Ну и знать
HTML DOM
CSS
sql ( куда то же надо девать данные )
Ответ написан
APodgorny
@APodgorny
Проще всего через bs4. Производительность парсеров будет не промышленная, прямо скажем, но для тренировки и каких-то разовых задач вполне сойдёт.
Вот так это выглядит https://www.youtube.com/watch?v=KPXPr-KS-qk

Желательно освоить библиотеку lxml
https://lxml.de/index.html

Есть также фреймворк Scrapy.

По этому вопросу даже литература имеется
mirknig.su/knigi/programming/114900-skraping-veb-s...

Само собой, основы разметки нужно знать, понимать что такое XPath и CSS-селекторы.
Ответ написан
Комментировать
flyingpandasdiyingslow
@flyingpandasdiyingslow
Если ищите примеры парсеров веб страниц с разбором и объяснениями делюсь ссылкой
Либо вот большая подробная статья на хабре от этих же ребят
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы