Что лучше использовать для парсинга HTML страницы? DOM, preg_math или еще чего?
На самом деле необходим шаблонизатор... подразумевается, что некий скрипт php, будет выводить данные в формате HTML, предварительно распарсив шаблон и вставив необходимые данные... В сети очень много описаний различных технологий, но у каждой есть свои минусы и каждую не советуют использовать!
все зависит от определенного случая.
если просто получить какой-то блок, то почему бы не preg_match?
а если немного громоздкие данные получить . то dom и т.д.
Про валидный код это да... и мы парсим не другую страницу, с сайта Дяди Вани, а написанный собственноручно шаблон HTML, думаю можно сверстать валидно. В сети много пишут что использование DOM приведет к загруженности системы и т.д. А про preg_match почти тоже самое. Библиотеку SimpleHTML , что в первом комментарии, возможно использовать в моем примере, но хочется чтобы система была универсальна, а SimpleHTML, для получения HTML страницы, использует функцию file_get_content, что в будущем, при расширении функционала системы, не позволит взять информацию со стороннего ресурса. Как то уже сталкивался с этим, пришлось писать свою библиотеку используя cURL, и маскироваться под браузер, ибо специалисты со стороннего ресурса, запретили получение страницы без заголовка с описанием клиента (браузера).
Вы сами-то свою задачу понимаете? Напишу, что понял из вашего сумбура я:
Нужен шаблонизатор, без использования сторонних библиотек, но чтобы с его помощью можно было парсить шаблоны со сторонних сайтов, хотя пока мы парсим собственноручно написанный шаблон, и чтобы не грузил систему.
Я ничего не упустил? Если нет, то чем вам не угодил голый PHP-то? Он как бы и есть шаблонизатор.