Что почитать про парсинг?

Увлёкся парсингом данных на python. Какие посоветуете книги по данной теме?
  • Вопрос задан
  • 1091 просмотр
Пригласить эксперта
Ответы на вопрос 7
datka
@datka
Основы HTML, CSS. Документацию по BeautifulSoup, Requests. Документацию по работам с List и Dict и циклами в питоне. Документацию по Selenium, Гайды по работе с консолью разработчиков Chrome/Firefox.Youtube ролики. Гугл. Как минимум надо знать как устроен сайт.
Ответ написан
BadCats
@BadCats
К ответу datka - как к реальному и чисто прикладному - добавлю, что еще можно углубиться в теория формальных языков, грамматики (как работают компилятор, интерпретаторы) - что, возможно, позволит писать более универсальный код - не так сильно привязанный к верстке страницы - т.к можно пытаться анализировать html/xml - на уровне токенов и лексем, даже с кастомными классами и атрибутами для элементов. Но это очень сложная область и возможно, что "овчинка выделки не стоит".
Ответ написан
@dmshar
Райан Митчелл. Современный скрапинг веб-сайтов с помощью Python. 2-е
межд. издание . — СПб.: Питер, 2021.
Anish Chapagain. Hands-On Web Scraping with Python.-2019.
Katharine Jarmul, Richard Lawson. Python Web Scraping. Fetching data from the web.-2017 Packt Publishing.
Richard Lawson. Web Scraping with Python Scrape.-2015 Packt Publishing
Ответ написан
@Levhav
Возьмусь за разработку проектов любой сложности.
Обратите внимание на генераторы парсеров. На пример найдите какие то питон аналоги для bison / flex
Ответ написан
@acwartz
angular, hello world java, chrome ext/, delphi
Смотрите в сторону комп. зрения и нейронных сетей. Действительно вкусные вещи за парсинг которых многое отдадут, защищают от всего вышеперечисленного. Например отображение их в виде стрима видео-потока, или рисовка данных в WebGL где-то на бэкэнде. А не вот это все...
Ответ написан
@Gor1950
Практический курс парсинга сайтов на Python
Курс направлен на отработку и практическое применение основных синтаксических конструкций языка Python при парсинге данных с сайтов.
Курс рассчитан на новичков, для которых важно наработать опыт работы с языком и научиться свободно его применять.
Самая доступная для любого новичка деятельность, которая позволит наработать опыт перед тем, как взяться за что-то более серьезное – это, на мой взгляд, парсинг сайтов. Тем более, что эта деятельность позволяет зарабатывать.

Людям с опытом этот курс будет вряд ли полезен.

Содержание :

0. Подготовка: установка pip3, BeautifulSoup, lxml, requests
1. Введение. Базовый пример работы с BeautifulSoup
2. Парсинг множественных данных и экспорт в csv-файл
3. Парсинг табличных данных
4-1. Работа с пагинацией сайтов (метод 1)
4-2. Работа с пагинацией сайтов (метод 2)
5. Чтение и запись данных в csv-файлы
6. Продвинутые приемы работы с библиотекой BeautifulSoup
7. Сохранение данных в БД Postgresql с помощью ОРМ PeeWee
8. Парсинг данных подгружаемых через AJAX часть 1
9. Парсинг данных в несколько процессов
10. Парсинг данных, подгружаемых с помощью JQuery
11. Парсинг данных, подгружаемых AJAX (часть 2)
12. Используем прокси
13. Заключение и пара советов для тех, кто все-таки решит пофрилансить парсингом данных с сайтов
14. Парсинг данных, подгружаемых AJAX запросами (JQuery) на примере сайта Steam’a. UPDATE
15. Авторизация с помощью Requests и использование сессий. UPDATE

Стоимость 1200 рублей.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы