Посоветуйте простое регулярное выражение

Question

Сергей Ноздрин @light204

Посоветуйте простое регулярное выражение

Здравствуйте!

Ситуация такова:
1) есть переменная $get_page, содержащая исходный код страницы сайта.
2) в данном коде регулярно повторяются ссылки с такой структурой (меняется только текст ссылок):

<h3 class="t_i_h3">
<a title="Продаю BMW 735i в Ростове-на-Дону" href="/rostov-na-donu/avtomobili_s_probegom/prodayu_bmw_735i_89296613" name="89296613"> Продаю BMW 735i</a>
</h3>

Вопрос.
Какое регулярное выражение для php функции preg_match_all("", $get_page, $result) нужно написать, чтобы в $result массиве содержались все ссылки с такой структурой со страницы?
Спасибо за помощь!

P.S. На всякий случай — у <h3 class="t_i_h3"> всегда этот класс, меняется содержимое title, href, name, ну и текст самой ссылки, очевидно.

Вопрос задан более трёх лет назад
4219 просмотров

3 комментария

Подписаться 2 Оценить 3 комментария

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

2 комментария

Сергей Ноздрин @light204 Автор вопроса

Может, нельзя вот так напрямую получать страницу и сразу же искать в ней по регуляркам?

Написано более трёх лет назад

Сергей Протько @Fesor

<?php

$get_page = file_get_contents('http://www.avito.ru/rostov-na-donu/avtomobili_s_probegom');
preg_match_all("|<h3\s+class=\"t_i_h3\">(.+)(</h3>)|isU", $get_page, $result); 

var_dump($result[1]);

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 6

Комментировать

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 491 просмотр
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 190 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 422 просмотра
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 239 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 186 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 152 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2456 просмотров
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 321 просмотр
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 180 просмотров
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 248 просмотров
2

ответа
Показать ещё Загружается…

В каждом подобном вопросе должна быть эта ссылка.
Не силен в regexp, может кто-то меня дополнит — |<h3.*class=\"t_i_h3\">.*</h3>|sU
Пожалуйста поясните точней, что у вас на входе и что вам нужно на выходе.
А пока вот я загрузил для вас и других утилитку для подбора ваш сорц

Answer 1 · 2012-11-19 19:05:08

Хм, нашел у вас правильный пример (по мнению сайта regexp.ru). Хочу у себя проверить. Что делаю не так, как думаете?

Тестовый скрипт:

$get_page = file_get_contents('http://www.avito.ru/rostov-na-donu/avtomobili_s_probegom');
preg_match_all("|<h3\s+class=\«t_i_h3\»>(.+?)|isU", $get_page,$result);    
echo '<br/><strong>Результат:</strong> <pre>'.var_export($result[1],true).'</pre>';

Выдает пустой массив…

Answer 2 · 2012-11-19 22:19:40

А я предлагаю забыть про регулярки (в данном случае) и использовать более подходящий и удобный инструмент.
PHP Simple HTML DOM Parser

<?php

require('simple_html_dom.php');

// Create DOM from string
$html = str_get_html('<html><body><h3 class="t_i_h3">
<a title="Продаю BMW 735i в Ростове-на-Дону" href="/rostov-na-donu/avtomobili_s_probegom/prodayu_bmw_735i_89296613" name="89296613"> Продаю BMW 735i</a>
</h3></body></html>');

// Find all links
foreach($html->find('h3.t_i_h3 a') as $element)
	echo $element->title;

Answer 3 · 2012-11-19 18:41:16

|<h3\s+class=\«t_i_h3\»>(.+?)|isU

Как-то так. А вообще использовали бы XPath И не мучались. Парсить DOM регулярками не всегд удобно.

Answer 4 · 2012-11-19 18:46:12

'/<h3 class="t_i_h3"><a title="([0-9a-zA-Z-_\/]+)" href="([0-9a-zA-Z-_\/]+)" name="([0-9a-zA-Z-_\/]+)">([0-9a-zA-Z-_\/]+)<\/a><\/h3>/'

Это вообще не вариант, но за то годный. Знать на знаю как заставить искать не только a-zA-Z, но еще и а-яА-Я.
Пускай оно длинное и противное, но рабочее. :)

Answer 5 · 2012-11-19 19:47:07

Jonh Doe @CodeByZen

php, js, my/mssql, sqlite, html, css, it-consult

preg_match_all("/<h3 class=\"t_i_h3\">(.*)<\/h3>/isU",$get_page,result);

Ответ написан более трёх лет назад

2 комментария

Answer 6 · 2012-11-19 21:31:56

max_rip @max_rip

regexr.com?32s0a
На выходе три переменных title href и содержимое текста +)

Ответ написан более трёх лет назад

Комментировать

Answer 7 · 2012-11-23 02:33:38

<?php
   
  for($get_page ="",$i=0;$i<10;$i++)
    
     $get_page  .= "                                                                                                                              
     <h3 class=\"t_i_h3\">                                                                                                                        
     <a title=\"".md5(mt_rand(1,1000))."\" href=\"".md5(mt_rand(1,1000))."\" name=\"".md5(mt_rand(1,1000))."\"> ".md5(mt_rand(1,1000))."</a>      
     </h3>                                                                                                                                        
                                                                                                                                                  
     " . md5(mt_rand(1,1000));

     preg_match_all("~".
     

     "\s*".
     "\s*<h3.*?t_i_h3.?>".
     "\s*<a\s*title\=\"(.*?)\"\s*href\=\"(.*?)\"\s*name\=\"(.*?)\"\s*>(.*?)</a>".
     "\s*</h3>".
     "\s*".
     "\s*".
     
     
     "~msi", $get_page, $result, PREG_SET_ORDER );


     print_r($result);

?>

Посоветуйте простое регулярное выражение

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт