Попробовал оригинальную библиотеку. Да, со сторокой HTML она работает отлично, но если парсить страничку сайта, то получается та же штука - некоторые теги
a
не распознаются.
Вот страница
dveri.com/. Нужно спарсить все ссылки с левого меню, которые находятся в
<li>
с классом .portfolio.
Код
require('./simple_html_dom.php');
$content = file_get_html('http://dveri.com');
foreach ($content->find('.portfolio a') as $link) {
echo $link->href . '<br>';
}
Результат
/catalog/dveri-mezhkomnatnyye/dveri-shponirovannyye/euro
/catalog/dveri-mezhkomnatnyye/dveri-ekoshpon/vetro
/catalog/dveri-mezhkomnatnyye/dveri-iz-massiva
/catalog/dveri-mezhkomnatnyye/dveri-emal
/catalog/dveri-mezhkomnatnyye/dveri-pvh
/catalog/dveri-mezhkomnatnyye/dveri-stekljannye
/catalog/dveri-mezhkomnatnyye/dveri-stroitelnyye
/catalog/protivopozharnyye-dveri-lyuki
/catalog/razdvizhnye-dveri
/catalog/arki-mezhkomnatnye
/catalog/furnitura-dlya-dverey/fiksatory
/catalog/furnitura-dlya-dverey/stroitelnya
/catalog/furnitura-dlya-dverey/dovodshiki
/catalog/stenovyye-potolochnyye-paneli
Но это далеко не все ссылки