Как спарсить div со страницы?

Question

andreystrelkov @andreystrelkov

Как спарсить div со страницы?

Добрый вечер, пытаюсь спарсить основной текст новости со страницы сайта lenta.ru
не выходит, что я не так делаю

$html = file_get_contents('https://lenta.ru/news/2016/06/02/trol/');
if (preg_match('#<span class="b-text">(\d+?)</span>#', $html, $matches)) {
  $price = $matches[1]; 
}
echo $price;

Вопрос задан более трёх лет назад
431 просмотр

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

10 комментариев

Immortal_pony @Immortal_pony Куратор тега PHP

Егор Неведов, в случае, если на странице будет необходимый текст, то в данную переменную попадет весь текст вместе с разметкой, если не будет текста, то будет false. И то и другое бесполезно в контексте решаемой задачи.

Написано более трёх лет назад
Егор Неведов @Sanitar88

ну, в этом вы правы, и особенно про RSS в данном случае.
Но разметку можно отфильтровать при желании, а если изменится разметка и не будет текста, как поможет ваша библиотека? Это просто вопрос, у меня не такой большой опыт парсинга и регулярки как-то кажутся более оптимальными по скорости.

Написано более трёх лет назад
Immortal_pony @Immortal_pony Куратор тега PHP

Егор Неведов, Не совсем понял вопрос. В RSS разметка не изменится.

Написано более трёх лет назад
Егор Неведов @Sanitar88

Immortal_pony Я про случай когда нет RSS, конечно.

Написано более трёх лет назад
Immortal_pony @Immortal_pony Куратор тега PHP

Егор Неведов, в этом случае использование SimpleXML для работы с DOM на мой взгляд предпочтительнее, нежели попытка разбора регулярными выражениями. При изменении разметки и тот и другой способ скорее всего дадут сбой.

Написано более трёх лет назад
Егор Неведов @Sanitar88

Immortal_pony Я как раз этим и интересуюсь - почему предпочтительнее. Ведь наверняка решение будет медленнее, чем простая регулярка, вряд ли надёжнее, и к тому же изучать и внедрять лишний код? В чём профит?

Написано более трёх лет назад
Immortal_pony @Immortal_pony Куратор тега PHP

Егор Неведов, stackoverflow.com/a/1732454/4287929

Написано более трёх лет назад
Егор Неведов @Sanitar88

Immortal_pony, Юморной пост) да конкретики нету. Судя также по посту под ним, я так понял, что библиотеки нужны для какого-то более универсального решения (например когда сайтов с разной разметкой сотни, и нужно по DOM пробежаться и определить, где вообще контент, а где что, цена там или ещё что-то), а в остальных случаях, когда есть заданные 1-10 сайтов с относительно постоянной разметкой - регулярки вполне хороший и быстрый выход.

Написано более трёх лет назад
Immortal_pony @Immortal_pony Куратор тега PHP

Егор Неведов, в регулярных выражениях слишком легко допустить ошибку, их тяжело читать, зачастую сложно расширить. Что касается скорости - так они тоже не образец производительности. Потому использовать их без крайней необходимости в тех местах, где есть специализированные инструменты, я считаю нецелесообразным.

Написано более трёх лет назад
Егор Неведов @Sanitar88

Immortal_pony субъективно, не соглашусь. Когда-то посвятил пару дней их изучению и практике, с тех пор мне кажется что проще ничего не придумать, использую постоянно в редакторе для форматирования всяких дампов и проч. Что касается скорости - но тогда что тот самый образец? Задача построить целиком всю DOM мне кажется на порядок как минимум затратнее будет по ресурсам и по скорости. Компенсируется ли это скоростью поиска?
Было бы интересно посмотреть какое-нибудь тестирование в реальном мире.

Написано более трёх лет назад

2 комментария

andreystrelkov @andreystrelkov Автор вопроса

RSS я так сказать распарсил, выдрал всё необходимое, а именно самое главное - ссылку на полный материал, мне теперь нужно полную версию новости а не краткую как в RSS

Написано более трёх лет назад
Immortal_pony @Immortal_pony Куратор тега PHP
andreystrelkov,
1. Почему переменная называется $price?
2. Почему на странице ищется span с классом "b-text"? Я проверил - на указанной странице нет таких элементов. Есть div с классом "b-text", но у него есть куда более интересный атрибут "itemprop" значение у которого "articleBody", что скорее всего и является искомым.
3. Что за символы "#" в регулярном выражении? Почему во внутреннем условии ищутся цифры?

В общем, если нужен текст статьи, то его легко получить указанным мною способом, а если необходимо что-то еще, то сформулируйте, пожалуйста, вопрос корректно:

$html = file_get_contents("https://lenta.ru/news/2016/06/02/trol/"); $page = new domDocument(); $page->loadHTML($html); $article = ""; $domXpath = new DOMXPath($page); $newDom = new DOMDocument(); $newDom->formatOutput = true; $filtered = $domXpath->query("//div[@itemprop='articleBody']"); $i = 0; while ($item = $filtered->item($i++)) { $node = $newDom->importNode($item, true); $newDom->appendChild($node); } $article = $newDom->saveHTML();
Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 522 просмотра
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 194 просмотра
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 432 просмотра
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 242 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 190 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 153 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2460 просмотров
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 327 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 181 просмотр
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 248 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2016-06-16 00:37:45

Егор Неведов @Sanitar88

Студень

$matches[0] ?

ну да, и, если парсить основной текст, \d+? - это не текст вовсе

Ответ написан более трёх лет назад

10 комментариев

Answer 2 · 2016-06-16 00:38:28

Во-первых, у Ленты есть RSS, привязываться к верстке нежелательно:

На момент запуска нового сайта доступны следующие RSS:

/rss/news — новости
/rss/top7 — самые свежие и самые важные новости
/rss/last24 — главные новости за последние сутки
/rss/articles — все статьи
/rss/columns — колонки
/rss/news/russia — новости рубрики «Россия»; после косой черты можно написать английское название любой рубрики — обращайте внимание на их url (например, /rss/news/world — это уже все новости рубрики «Мир»)
/rss/articles/russia — все статьи рубрики «Россия»; управление рубриками аналогичное
/rss/photo — все галереи
/rss/photo/russia — все галереи рубрики «Россия»; управление рубриками аналогичное

Во-вторых, что касается парсинга XML, то регулярные выражения для этого использовать также не лучшая идея. Их вообще лучше никогда не использовать при возможности. Распарсить XML можно с помощью SimpleXML или Nokogiri. И конкретно для RSS есть несколько библиотек.

Пример:

libxml_use_internal_errors(true); // Не провоцировать генерацию ошибок в php из-за ошибок разбора html 

$html = file_get_contents("https://lenta.ru/news/2016/06/02/trol/");
$page = new domDocument();
$page->loadHTML("<?xml version='1.0' encoding='UTF-8'?>" . $html); // Явное указание кодировки полученных данных

$article = "";
$domXpath = new DOMXPath($page);
$newDom = new DOMDocument();
$newDom->formatOutput = true;

$filtered = $domXpath->query("//div[@itemprop='articleBody']");
$i = 0;
while ($item = $filtered->item($i++)) {
    $node = $newDom->importNode($item, true);
    $newDom->appendChild($node);
}

$article = $newDom->saveHTML();
libxml_clear_errors(); // Очищение буфера ошибок.

Answer 3 · 2016-06-16 01:40:21

LBC @a0325d

Советую взять что-нибудь на подобии этого: simplehtmldom.sourceforge.net

Ответ написан более трёх лет назад

Комментировать

Как спарсить div со страницы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт