Что использовать для парсинга сайтов на PHP?

Всем привет!
Сразу хочу остановить холивар, по поводу того, что php для парсинга плохо подходит - техническое задание таково, что нужно писать на PHP с использование Yii2 и это не обсуждается заказчиком. Более того, на сервере стоит еще версия php 5.6.
Парсить нужно с нескольких сайтов и заносить это все в базу данных - объёмы информации достаточно большие.
Для меня не проблема решить это все даже с использование curl/wget, парсить регулярками, и создать демонов для постоянной работы в фоновом режиме. Но не хотелось бы изобретать велосипеды, особенно не хочется парсить html регулярными выражениями.
Потому собственно вопрос к тем, кто уже создавал что-то подобное на PHP. Какие сейчас существуют наиболее подходящие инструменты для таких задач? Может уже есть что-то "всё в одном флаконе"? Или хотя бы по частям собрать всё в одну систему?
  • Вопрос задан
  • 773 просмотра
Решения вопроса 2
Stalker_RED
@Stalker_RED
Прям все-в-одном не подскажу.

Для разбора есть отличная штука: Zend\Dom\Query, а регулярки вообще плохо подходят для разбора html.

Для собственно скачивания есть Guzzle - чуток поудобнее, чем curl.

Если качать нужно очень много, то ферму демонов можно завести на gearman. php.net/manual/ru/book.gearman.php

Остается открытым вопрос - при чем тут Yii2. Сделать на нем какую-то морду с отчетами?
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
kawabanga
@kawabanga
Делайте парсинг через xpath.
В целом yii2 вам больше поможет в организации хранения.

Решения для парсинга нет. Вы выбираете его исходя из ваших нужд.
Научиться парсингу — с чего начать?
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы