Научиться парсингу — с чего начать?

Question

abbrakadabbra @abbrakadabbra

Научиться парсингу — с чего начать?

Здравствуйте. Вопрос мой скорее связан с ориентированием в среде языков программирования. На данный момент я являюсь скорее вэб-мастером, со знаниями photoshop\html5\css (в основном работаю над своими сайтами + создаю сайты клиентам, используя WordPress).

Последнее время все чаще задаюсь вопросом, чтобы освоить один из языков программирования, чтобы стать более серьезным специалистом. Это значит, что я спрашиваю себя для чего мне это нужно - что я буду с этим делать. Ответы получаются такие:

1) Освоив, например PHP, я могу создавать плагины для WordPress и другие смежные скрипты (сразу скажу, что мне часто приходится это делать, т.к. сайты создаю с нуля и под разные нужды). К тому же нередко приходят интересные идеи, и хотелось бы творить, реализовывая это самостоятельно. Скажем, к этому пункту подходит перспектива стать разработчиком на PHP в рамках WordPress. Ведь сейчас он популярен, сайтов становится всё больше, и даже e-Commerce прорывается, базируясь на каком-нибудь Woo.

2) Парсинг (тема вопроса). Мне нравится эта тема, когда можно собрать определенные данные, обработать их и вывести во что-то интересное. На практике уже не раз приходилось встретиться с такими проектами (для себя), но работу я поручал другим программистам.

Сейчас я наконец созрел для того, чтобы освоить один из языков программирования, чтобы реализовывать свои задачи самостоятельно. Мне это действительно интересно. Я считаю важным понимание зачем мне это понадобится, поэтому специально описал 1, и 2-ы пункты. Зная что я буду делать, я смогу более детально изучить интересуемую область. Я решил обратиться к вам за советом, чтобы понять с чего правильно начать и в целом услышать что вы думаете. Спасибо!

Вопрос задан более трёх лет назад
36462 просмотра

Комментировать

Подписаться 76 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Skillbox

PHP-разработчик. Базовый уровень

3 месяца

Далее

Решения вопроса 3

1 комментарий

2 комментария

abbrakadabbra @abbrakadabbra Автор вопроса

Спасибо за ответ! Очень полезно. Учитывая, что я ещё не знаю PHP, и скорее всего я начну именно с него (он мне нужен для моего пункта 1).

Что вы имеете ввиду я понял. В смысле, что для меня это не китайский, где я вообще не понимаю что значит API, JSON или css-селекторы. Но вот сразу пункт 1 - curl, разве это не PHP?

Ещё раз спасибо за инструкцию, она мне действительно подсказала какой дорогой двигаться. Хоть и не во всех подробностях, но я понял связку. Остаётся только разбираться.

И всё-таки. Чтобы сделать свой первый парсер - мне понадобиться начать с основ PHP, самых азов. Или есть более короткий путь, который научил бы меня работать по похожему сценарию (я не ищу волшебной палочки). Или это был бы тупиковый путь, который не сделал бы из меня программиста.

Написано более трёх лет назад
throughtheether @throughtheether

Но вот сразу пункт 1 - curl, разве это не PHP?
cURL, а точнее Libcurl - это библиотека, в php, по-моему, есть модуль привязки к ней (биндинг).

И всё-таки. Чтобы сделать свой первый парсер - мне понадобиться начать с основ PHP, самых азов. Или есть более короткий путь
Если это вопрос, то думаю, что "трудный" путь в начале сэкономит время при дальнейшем изучении php.

Написано более трёх лет назад

Комментировать

Пригласить эксперта

Ответы на вопрос 15

Комментировать

1 комментарий

4 комментария

Дмитрий @Dit81

Очень хорошая библиотека. Делал на ней пару-тройку проектов... Плюс на любимом Python'е... )

Написано более трёх лет назад
RouR @RouR

xpath есть не только в питоне

Написано более трёх лет назад
Unknown007 @Unknown007

RouR: разумеется :) я этого не утверждал

Написано более трёх лет назад
abbrakadabbra @abbrakadabbra Автор вопроса

Круто. Походу разработчик это человек, к которому я сам как-то обращался за парсингом :) Спасибо за линк на Хабр, обязательно к ней вернусь!

Написано более трёх лет назад

Комментировать

2 комментария

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- вчера
- 195 просмотров
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 223 просмотра
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 204 просмотра
4

ответа
PHP

+1 ещё

Простой
Перестал работать php запрос к телеграмм?
- 1 подписчик
- 15 окт.
- 212 просмотров
1

ответ
PHP

+2 ещё

Простой
Как проще отправить изображение на стену канала?
- 1 подписчик
- 15 окт.
- 142 просмотра
1

ответ
WordPress

Простой
Почему атомарная операция не отрабатывает(счетчик стопортиться на 1)?
- 1 подписчик
- 15 окт.
- 102 просмотра
1

ответ
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 112 просмотров
0

ответов
PHP

Простой
Как точно работает скрипт на RoadRunner?
- 1 подписчик
- 13 окт.
- 207 просмотров
1

ответ
PHP

+1 ещё

Простой
Стоит ли использовать файловый сервер в проекте?
- 2 подписчика
- 13 окт.
- 244 просмотра
3

ответа
WordPress

Простой
Как скрывает исходящие ссылки этот сайт?
- 1 подписчик
- 09 окт.
- 159 просмотров
2

ответа
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 180 000 до 250 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

Разработчик PHP | WordPress

Globaldrive

от 150 000 ₽

Answer 1 · 2015-10-06 14:46:05

1) Нужно иметь представление, как загружаются и работают сайты. Тут необходимо иметь представление и о том, что полезный контент может появится на сайте и после загрузки через определенное время.

2) Нужно иметь представление, как работает самый обычный способ получения контента - Curl. Попробуйте скопировать что то, поработать, представить в xml документ и тд. Тут вы определитесь с принципом работы парсера.
- парсер получает вводую информацию -> с учетом программы и вводных данных, парсер запрашивает определенные данные -> парсер обрабатывает данные для пользователя -> при необходимости, парсер повторяет запрос (инициированный пользователем или рекурсий) -> конец

3) Далее вы дойдете до механизмов защиты от парсинга:
- ограничение запросов на 1 ip, на один клиент и тд
- подгузка информации после загрузки контента
- дополнительный запрос на подгрузку контента с CSRF и другими способами
- блокирование ip
Это откроет вам парсеры типа PhantomJs, Научит пользоваться прокси, мимикрировать под популярные браузеры и тд.
Так же вы дойдете до многопоточности работы парсера, и подумаете о переходе на C и подобный язык программирования. Общаясь с сайтом уже посредством api.

А дальше, сталкиваяь с новыми проблемами, будете их решать.

Answer 2 · 2015-10-06 18:27:10

С php не имел удовольствия работать, но поводу парсинга могу пояснить.
Что вам, по большому счету, надо, так это:

1) скачать страничку сайта или сделать вызов HTTP API. В этом вам помогут библиотеки вроде curl.

2) разобрать полученные в п.1) данные. В случае API, как правило,это JSON. В случае HTML вам пригодится знание XPATH-выражений (которые также помогут, если в результате выполнения п. 1) вы имеете XML) и css-селекторов. Исполнять эти запросы будет XML- или DOM-парсер.

3) полученные в п.2) данные сохранить в конечном или промежуточном виде: CSV, записи в RDBMS (sqlite, mysql, postgresql) или NoSql (Mongo, например)

В дальнейшей работе помогут Selenium (или другой HTTP клиент с исполнением javascript), очереди заданий, кэширование (redis).

Думаю, направление для поиска я вам задал.

Answer 3 · 2015-10-08 10:19:29

Для парсинга обычных страничек используйте php-либу phpQuery.
Для парсинга ajax-стариничек, то есть страниц с динамически загружаемым контентом, которые phpQuery видит как пустые, используйте java-либу htmlUnit, с помощью которой можно написать простенький код получения и сохрания страницы в файл, который потом можно распарсить с помощью phpUnit.
Язык селекторов phpQuery аналогичный jQuery, так что сложностей возникнуть не должно.
Самый простой способ -- выбрать сайт, открыть его в f11 и тренироваться.

Answer 4 · 2015-10-16 14:56:23

Для парсинга я бы посоветовал использовать Python. Он довольно гибкий и простой в изучении. И для этих целей подходит как нельзя лучше. Особенно если нужно парсить динамический контент (AJAX, javascript и постзагруза)
Альтернативой здесь может быть Java, но это слишком сложно для начинающих
Можно использовать такую связку:
Python, Selenium+phantomjs ( загрузка страниц ), beautifulsoup (парсинг html), pymysql (для выгрузки в ДБ).
Если контент статический то все еще проще - Python + beautifulsoup
Работает все очень быстро. А главное api очень интуитивное и разобраться в функционале очень легко.

Answer 5 · 2015-10-06 14:48:35

В самом парсинге нет ничего сложного - берете несколько кусков чужого кода (например несколько однотипных страниц HTML с товаром или новостями), определяете то что вам нужно вытащить, далее смотрите какие-то закономерности, вложенности, признаки и т.д. Определяете - всегда ли это работает или нет. Пишете шаблон (или шаблоны в циклах), потом проверяете тестами - лучше онлайн (например https://regex101.com/ ), чтобы можно было сразу видеть результат.
Другое дело как быть со "спарсенными" данными - стоит им доверять полностью или нет. Что делать с данными, если что-то пошло не так.

Answer 6 · 2015-10-15 12:54:15

Отличная библиотека для парсинга сайтов - grab. Правда, на питоне. Самому пришлось изучить python только ради использования этой библиотеки, и не пожалел - удобный язык, как и библиотека - делаете запросы на xpath и сохраняете результаты:

g = Grab(log_file='parse_log.html')
g.go(url)
pages_block = g.doc.select('//div[contains(@class,"pager")]/div[contains(@class, "pages")]')
if pages_block:
    pages = pages_block.select('.//li/a[not(@title="Next" or @title="Previous")]')
    page_hrefs = []
    for page in pages:
        href = page.node.attrib['href']
        page_hrefs.append(href)
        print "Page: %d" % int(page.text())

Answer 7 · 2015-10-06 14:43:28

Сергей @Pjeroo

Веб-разработчик

Регулярные выражения и DOM (если парсинг HTML)

Ответ написан более трёх лет назад

Комментировать

Answer 8 · 2015-10-10 02:03:07

Если хотите начать с чего-то приземленного не боясь запутаться - посмотрите в сторону xpath. Применяется почти во всех современных языках (в том числе C#, Java). Для практики самое то. Примерно разобравшись с тем, что это такое, сразу поставьте себе задачу. К примеру, спарсить много данных, залить всё в свою БД (сразу и с этим потренируетесь), и дальше, к примеру, строить графики (самый простой вариант).

Answer 9 · 2015-10-07 00:22:49

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

Деревья, регулярки, мультипоточность и NoSQL-база.

Ответ написан более трёх лет назад

2 комментария

Answer 10 · 2015-10-12 13:44:30

Для парсинга изучайте запросы и ответы от HTTP серверов, через сниффер (например Charles). Освойте базы языка C#. Используйте библиотеку xNet для C# от нашего соотечественника. Для хранения данных советую SQLite и NoSQL (в зависимости от задачи).
Тьму проектов уже сделал на них, работает очень шустро, рекомендую.

Answer 11 · 2015-10-27 21:57:53

lynnikvadim @lynnikvadim

tproger.ru/digest/parse-html-via-php

Ответ написан более трёх лет назад

Комментировать

Answer 12 · 2017-01-06 11:51:26

Нахожусь в вашей ситуации, только дольше. Поэтому шишек набито больше. Парсинг лучше делать средствами Python и XPath, и передавать уже отпарсенное в промежуточном формате обработчику на PHP если это вообще будет нужно после парсинга. Очень хорошая библиотека для парсинга - BeautifulSoup, для последнего питона - https://github.com/il-vladislav/BeautifulSoup4

Answer 13 · 2018-12-05 08:20:46

Evgen @Verz1Lka

Web scraping expert

Один из самых мощных и гибких фреймворков для парсинга на python: scrapy

Ответ написан более трёх лет назад

Комментировать

Answer 14 · 2015-10-15 11:04:19

(2) теоретически парсинг _любых_ текстовых форматов в самом общем смысле можно делать связкой flex/bison/C++:
1) прописывая регулярки для элементов языка входных данных (строки, числа, тэги,...), затем
2) на bison описываете грамматику входного языка (вложенные тэги, правила расстановки атрибутов, вложенные скобочные выражения и т.п.),
flex/bison генерит пару сишных/С++ файлов, выполняющих всю грязную работу по синтаксическому разбору формата, дергая для каждого определенного элемента _ваш_ кусок сишного кода. Что потом делать с этими данными (пихать с СУБД, генерировать AST для компилятора, просто вычленять нужные единичные данные,..) описываете сами на С++.

У этого подхода соотношение низкоуровневость*гемор/универсальность стремиться к бесконечности, но по мере наработки библиотеки С++ кода для ваших узких задач для каждой N+1 задачи все сводится к генерации типовых высокоуровневых объектов (символов, списков, деревьев и т.п.), и пары десятков строк кода именно для этой задачи.

Answer 15 · 2015-10-15 11:20:46

Владислав Иващенко @ivaschenko

Про парсинг a-parser.com

Ответ написан более трёх лет назад

1 комментарий

Answer 16 · 2015-10-17 21:20:38

парсить можно на чем угодно. встречал много примеров на пайтоне. а так вообще подойдет на самом деле любой язык программирования, все зависит от удобства и адаптации... как правило выгоднее использовать интерпретируемые языки программирования и скриптовые

Answer 17 · 2017-01-22 00:34:22

phpQuery или curl
phpQuery мне кажется попроще.
мне этот урок понравился https://www.youtube.com/watch?v=IU_dAU7GV8w

Answer 18 · 2020-11-23 12:13:50

Попробуйте сделать парсер самостоятельно по инструкции
в бесплатном парсере (работает через браузер)
https://catalogloader.com/kak-sdelat-parser-sajta-... удобный интерфейс и все через браузер.
для простых задач эта инструкция для парсеров сайтов или интернет-магазинов вполне себе.
есть возможность выгрузки в разные формаыт csv exce xml json + доступ по API

Научиться парсингу — с чего начать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт