Добрый вечер.
Надо получить весь текст, который находится на странице сайта.
Без привязки к атрибутам тегов. Исключить надо script, iframe.
В конце надо записать в текстовый файл, с переносом строк.
Начал со следующего:
$str = file_get_contents('http://site.com');
$doc = new DOMDocument();
@$doc->loadHTML($str);
$body = $doc->getElementsByTagName('body');
...
После этого тупик, не могу сообразить, как лучше и правильно сделать.
Получаю DOMElement, где в textContent содержится весь текст.
Как его разобрать, чтобы можно было записать в файл? Посоветуйте, как правильно сделать?
p.s. Порядок в файле должен быть приблизительно следующий:
Заголовок
Подзаголовок
Текст
Меню
Текст
Текст
и т.д.