Добрый день.
Возникла необходимость написать парсер сайтов, универсальный.
Задача в следующем.
Пользователь вводит адрес сайта в поле формы, через cURL получают содержимое сайта, выделить из выдачи только текст(из div, p, table, span и т.д.).
Но вот вопрос. Каждый сайт, это индивидуальная структура. Как в этом случае, настроив парсер только раз, получать данные с любого сайта, не меняя настройки парсера под каждый сайт? Возможно ли это?
Сейчас использую php, cUrl, htmlpurifier для получения текста с сайта.
p.s. Что необходимо получить?
Необходимо получить только текст, сохранив орфографию и пунктуацию. Никаких тегов быть не должно. Js/Jquery тоже не надо получать, единственное, что надо получить из данных, подгружаемых js/jquery - содержание слайдеров, если там есть текст.
В идеале надо получить весь текст от
<body> до </body>
и только текст. Если текст, например, находится в таблице, то надо выбрать текст из td, записать в одну строку и сохранить в файл(базу). Следующая строка в таблице tr > все td - сформировать строку и добавить в файл(базу). В итоге должно получится, что всё содержимое одной таблицы является одним абзацем в файле. Так же и с остальными тегами.
Вот как-то так)
p.s.s
попытка реализации задачи