@Taiyonoryoshy
php-разработчик

Есть ли смысл писать библиотеку для сканирования сайтов?

Хочу написать библиотеку на php для получения ссылок и элементов форм на странице сайта.
Принцип работы скрипта:
1) скрипт получает абсолютный uri страницы сайта
2) возвращает все внутренние ссылки страницы в абсолютном, декодированном, канонизированном виде; возвращает массив с формами на указанной странице

Алгоритм работы скрипта:
1) запрос на указанный uri через curl
2) приведение html к валидному виду и построение dom-модели
3) запросы xpath для получение нужных dom-элементов
4) самописные алгоритмы для обработки всех найденных uri

Идея создания подобной библиотеки у меня родилась год назад, когда надо было решать подобные задачи. Удалось нагуглить вот что. Но там какой-то баг с авторизацией, так что толком исследовать предложенный в теме скрипт не получилось.

Есть ли смысл в написании подобной библиотеки, или я изобретаю велосипед?
  • Вопрос задан
  • 2521 просмотр
Решения вопроса 1
@Taiyonoryoshy Автор вопроса
php-разработчик
раз никто не подтвердил, что это велосипед - возьмусь за разработку

UPD:
https://github.com/taiyonoryoshy/scan-site
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 2
помимо DOM_Element, на php есть неплохая библиотека phpQuery.

И главный вопрос - зачем? Так-то идея хорошая, но найдет ли она практические применение?
Ответ написан
alekciy
@alekciy
Вёбных дел мастер
Это конечно же велосипед, но если хочется его написать, в чем проблема? Пишите.

Велосипед это по одной простой причине. Люди с большим опытом парсинга и так уже имеют свои наработки (к примеру, у меня есть кастамизируемый парсер загрузки каталогов добавление к которого нового сайта занимает 1-4 часа) и им велосипед не нужен. А люди без опыта скорее всего воспользоваться адекватно им не смогут.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы