@iiideb
Пишу роботов на html

Какие знания нужно иметь, чтобы писать парсер на Python?

Почти выучил основу Python. Что нужно будет учить, чтобы свободно писать парсер сайтов на Python? И какие ресурсы лучше для этого подходят.
  • Вопрос задан
  • 1307 просмотров
Пригласить эксперта
Ответы на вопрос 4
Vlad_IT
@Vlad_IT
Front-end разработчик
Ваш вопрос звучит так "Какие знания нужно иметь, чтобы создавать транспортные средства?". Парсеры бывают разные, где-то просто собрать кусок текста из блока (хватит обычного requests), где-то скопировать материалы с множества страниц (удобнее уже Scrapy, lxml), где-то будет мешать авторизация, где-то будет мешать капча (нужно писать распознание капчи или использовать платные API для распознания капчи), где-то уже будут серьезные защиты от парсинга.
Пишите простые парсеры, потом потихоньку переходите к более сложным, там будете уже понимать, какие штуки нужны.
Ответ написан
Комментировать
Mi11er
@Mi11er
A human...
Я начинал с Requests + bs4 .
Ну и знать
HTML DOM
CSS
sql ( куда то же надо девать данные )
Ответ написан
APodgorny
@APodgorny
Проще всего через bs4. Производительность парсеров будет не промышленная, прямо скажем, но для тренировки и каких-то разовых задач вполне сойдёт.
Вот так это выглядит https://www.youtube.com/watch?v=KPXPr-KS-qk

Желательно освоить библиотеку lxml
https://lxml.de/index.html

Есть также фреймворк Scrapy.

По этому вопросу даже литература имеется
mirknig.su/knigi/programming/114900-skraping-veb-s...

Само собой, основы разметки нужно знать, понимать что такое XPath и CSS-селекторы.
Ответ написан
Комментировать
flyingpandasdiyingslow
@flyingpandasdiyingslow
Если ищите примеры парсеров веб страниц с разбором и объяснениями делюсь ссылкой
Либо вот большая подробная статья на хабре от этих же ребят
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы
22 нояб. 2024, в 00:55
500 руб./за проект
21 нояб. 2024, в 23:30
300000 руб./за проект
21 нояб. 2024, в 22:21
3000 руб./в час