Как парсить данные используя Symphony DomCrawler?

Question

Илья Паршаков @parschakov

Начинающий изучать PHP и JS

Как парсить данные используя Symphony DomCrawler?

Здравствуйте! Пытаюсь разобраться в парсинге на Laravel используя Symphony DomCrawler и прошу помощи разобраться. Изучая мануал, не все понятно и погуглив наткнулся на одну статью, уже не существующего сайта, но частично получив доступ через сохраненную копию яндекса.

Пример кода:

/**
 * Get content from html.
 *
 * @param $parser object parser settings
 * @param $link string link to html page
 *
 * @return array with parsing data
 * @throws \Exception
 */
public function getContent($parser, $link)
{
    // Get html remote text.
    $html = file_get_contents($link);

    // Create new instance for parser.
    $crawler = new Crawler(null, $link);
    $crawler->addHtmlContent($html, 'UTF-8');

    // Get title text.
    $title = $crawler->filter($parser->settings->title)->text();

    // If exist settings for teaser.
    if (!empty(trim($parser->settings->teaser))) {
        $teaser = $crawler->filter($parser->settings->teaser)->text();
    }

    // Get images from page.
    $images = $crawler->filter($parser->settings->image)->each(function (Crawler $node, $i) {
        return $node->image()->getUri();
    });

    // Get body text.
    $bodies = $crawler->filter($parser->settings->body)->each(function (Crawler $node, $i) {
        return $node->html();
    });

    $content = [
        'link' => $link,
        'title' => $title,
        'images' => $images,
        'teaser' => strip_tags($teaser),
        'body' => $body
    ];

    return $content;
}

И не понятна тут строка $parser, которую принимает метод getContent().
Что она должны содержать? Из метода видно, что она используется например как $parser->settings->teaser, и содержит селектор для поиска, но как создан этот объект?

В общем, прошу помощи, кто знает, кто пользуется данным способом.
Всем большое спасибо, заранее за ответы!

Вопрос задан более трёх лет назад
3087 просмотров

Комментировать

Подписаться 2 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Skillbox

Профессия PHP-разработчик с нуля до PRO

7 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

3 комментария

Илья Паршаков @parschakov Автор вопроса

спасибо за ответ, просто не понятно как формируется этот объект $parser.

Написано более трёх лет назад
Илья Паршаков @parschakov Автор вопроса

и еще не понятно $parser->settings->title:
то есть в объекте $parser обращаемся к свойству settings
а потом к title? не сталкивался с таким пока еще... не понятно title это свойство в свойстве settings ? извините может быть за нубский вопрос :)

Написано более трёх лет назад
UksusoFF @UksusoFF

Илья Паршаков, там может быть что угодно, вплоть до доставания настроек из базы или еще откуда.
По документации там должна быть строка с css-селектором: https://symfony.com/doc/current/components/dom_cra...

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 17 часов назад
- 92 просмотра
2

ответа
PHP

Средний
Как подключиться к серверу PHP и чтобы отображались исполнители?
- 1 подписчик
- вчера
- 132 просмотра
2

ответа
PHP

+3 ещё

Средний
Как организовать автоматическую выдачу цифровых товаров после оплаты на чистом PHP?
- 2 подписчика
- 20 апр.
- 206 просмотров
3

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 224 просмотра
2

ответа
PHP

Простой
Не работает яндекс ссылка прямая?
- 1 подписчик
- 07 апр.
- 196 просмотров
1

ответ
PHP

Простой
Почему слетает сайт при загрузке обработчика?
- 1 подписчик
- 02 апр.
- 221 просмотр
1

ответ
JavaScript

+2 ещё

Средний
Авторизация вконтакте как настроить?
- 2 подписчика
- 26 мар.
- 361 просмотр
1

ответ
PHP

Простой
СТРОКА — где искать ее истоки на сайте?
- 1 подписчик
- 11 мар.
- 375 просмотров
2

ответа
PHP

Простой
Есть ли такая функция сравнения?
- 2 подписчика
- 09 мар.
- 324 просмотра
1

ответ
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 3 подписчика
- 05 мар.
- 999 просмотров
4

ответа
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 15 000 до 250 000 ₽

Программист PHP

Базис-Центр • Коломна

от 70 000 до 250 000 ₽

Fullstack PHP Laravel/VueJS разработчик

Emsoft

До 150 000 ₽

Answer 1 · 2018-02-13 23:37:31

Зачем вам вообще знать, что находится в свойствах этого объекта $parser?
Просто пишите свои селекторы и все. Самые обычные CSS селекторы (ну еще :contains поддерживается).

Вы вырвали метод из документации, а про контекст забыли. Это лишь пример. Перепишите на свой лад и проблема исчезнет сама-собой.

Answer 2 · 2018-02-08 22:36:28

Скорее всего там css/xpath селекторы уникальные для конкретного сайта. В документации довольно подробно это описано.

Как парсить данные используя Symphony DomCrawler?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт