Хочу написать библиотеку на php для получения ссылок и элементов форм на странице сайта.
Принцип работы скрипта:
1) скрипт получает абсолютный uri страницы сайта
2) возвращает все внутренние ссылки страницы в абсолютном, декодированном, канонизированном виде; возвращает массив с формами на указанной странице
Алгоритм работы скрипта:
1) запрос на указанный uri через curl
2) приведение html к валидному виду и построение dom-модели
3) запросы xpath для получение нужных dom-элементов
4) самописные алгоритмы для обработки всех найденных uri
Идея создания подобной библиотеки у меня родилась год назад, когда надо было решать подобные задачи. Удалось нагуглить вот
что. Но там какой-то баг с авторизацией, так что толком исследовать предложенный в теме скрипт не получилось.
Есть ли смысл в написании подобной библиотеки, или я изобретаю велосипед?