Нужна литература, статьи или сайты о парсинге сайтов на PHP (да и в целом о парсинге)?

Question

Виктория @vikusechk

Нужна литература, статьи или сайты о парсинге сайтов на PHP (да и в целом о парсинге)?

Здравствуйте!
Пишу диплом на тему "Разработка универсального парсера на языке PHP".
Ищу всевозможную литературу и статьи на эту тему, подскажите кто что знает?

Вопрос задан более трёх лет назад
1647 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Ошибка в php, как исправить?
- 1 подписчик
- вчера
- 183 просмотра
2

ответа
JavaScript

+2 ещё

Простой
Элемент стилизации на js, как сделать чтобы не было резкой смены картинки фона?
- 1 подписчик
- 27 нояб.
- 139 просмотров
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 184 просмотра
1

ответ
Веб-разработка

+1 ещё

Простой
Как включить ai ассистента в dev-tools в рф?
- 1 подписчик
- 25 нояб.
- 200 просмотров
0

ответов
Веб-разработка

+1 ещё

Простой
Подойдет ли desktop-ubuntu для разворачивания web- сервера?
- 2 подписчика
- 25 нояб.
- 508 просмотров
5

ответов
WordPress

+2 ещё

Простой
Как создать сайт с музыкой?
- 2 подписчика
- 24 нояб.
- 436 просмотров
4

ответа
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 418 просмотров
2

ответа
Веб-разработка

Простой
Какие есть аналоги иностанных web песочниц типа JSFiddle, codepen ...?
- 1 подписчик
- 16 нояб.
- 330 просмотров
1

ответ
Веб-разработка

+1 ещё

Простой
Как реализовать хранение денег пользователей на сайте?
- 2 подписчика
- 15 нояб.
- 652 просмотра
5

ответов
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 366 просмотров
2

ответа
Показать ещё Загружается…

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

PHP dev (Symfony, RabbitMQ)

IT ATLAS • Москва

от 250 000 до 500 000 ₽

PHP-разработчик (Symfony)

еКапуста

от 250 000 до 450 000 ₽

Answer 1 · 2016-03-10 09:35:18

В названии диплома все же не хватает слова "Разработка универсального парсера сайтов на языке PHP".
И слово "универсальный" думаю окажется лишним )

Литературу на эту тему вряд ли найдете, статьи разрознены и разного качества. Ищите пробуйте. Очень рекомендую попробовать написать несколько парсеров на других языках. Посмотрите как работает библиотека Grаb для Python. Ее принципы можно перенести для PHP.

Немного общей инфы по теме

В целом парсинг сайтов состоит из примерно следующих этапов:

Анализ сайта: определение структуры сайта и шаблона данных и, на этом этапе полезным бывает изучить файл роботс, xml карту сайта, поиск по сайту, выдачу поисковиков для сайта.
Подготовка выражений (xpath или css селекторв) для получения необходимых данных со страниц.
Написание и отладка парсера.

Сам парсер может состоять из следующих частей:

Краулер. Используя какие то правила проходит по страницам, собирает ссылки, может отправлять страницы сразу на парсинг (в очередь на парсинг) или просто выгружать и сохранять их целиком.
Парсеры. Блоки отвечающие за вытаскивание конкретных данных и их преобразование в нужный формат.
Вспомогательные сервисы, отвечают за разбор HTML DOM, кеширование, HTTP запросы, обход защиты от парсинга, сохранение данных в нужном формате и тп.

Для разбора HTML используются библиотеки (пример https://github.com/Imangazaliev/DiDOM ). Регулярками HTML не разбирают, но тоже, конечно применяют для разбора других данных.
Иногда требуется исполнять JS, например с помощью PhantomJS.
Для обхода капчи прибегают к услугам сервесов типа антигейт / антикапча.
Порой требуется авторизовываться или обходить защиту построенную на cookies.
Для многопоточного парсинга используют multicurl.

Вообще PHP не самый подходящий язык для парсинга сайтов. Все таки он предназначен для других целей. Python + Grab здесь будет куда удобнее и производительнее. Как, впрочем почти любой десктопный язык имеющий нужные библиотеки.

Answer 2 · 2016-03-10 10:03:01

warnerbrowsers @warnerbrowsers

Есть книга "PHP Web Scraping.Jacob Ward."Можно скачать тут it-ebooks.info/book/4297

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2016-03-10 11:09:23

Евгений @Nc_Soft

Это утопия.

Ответ написан более трёх лет назад

Комментировать

Нужна литература, статьи или сайты о парсинге сайтов на PHP (да и в целом о парсинге)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт