@Taiyonoryoshy
php-разработчик

Есть ли смысл писать библиотеку для сканирования сайтов?

Хочу написать библиотеку на php для получения ссылок и элементов форм на странице сайта.
Принцип работы скрипта:
1) скрипт получает абсолютный uri страницы сайта
2) возвращает все внутренние ссылки страницы в абсолютном, декодированном, канонизированном виде; возвращает массив с формами на указанной странице

Алгоритм работы скрипта:
1) запрос на указанный uri через curl
2) приведение html к валидному виду и построение dom-модели
3) запросы xpath для получение нужных dom-элементов
4) самописные алгоритмы для обработки всех найденных uri

Идея создания подобной библиотеки у меня родилась год назад, когда надо было решать подобные задачи. Удалось нагуглить вот что. Но там какой-то баг с авторизацией, так что толком исследовать предложенный в теме скрипт не получилось.

Есть ли смысл в написании подобной библиотеки, или я изобретаю велосипед?
  • Вопрос задан
  • 2521 просмотр
Решения вопроса 1
@Taiyonoryoshy Автор вопроса
php-разработчик
раз никто не подтвердил, что это велосипед - возьмусь за разработку

UPD:
https://github.com/taiyonoryoshy/scan-site
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 2
помимо DOM_Element, на php есть неплохая библиотека phpQuery.

И главный вопрос - зачем? Так-то идея хорошая, но найдет ли она практические применение?
Ответ написан
alekciy
@alekciy
Вёбных дел мастер
Это конечно же велосипед, но если хочется его написать, в чем проблема? Пишите.

Велосипед это по одной простой причине. Люди с большим опытом парсинга и так уже имеют свои наработки (к примеру, у меня есть кастамизируемый парсер загрузки каталогов добавление к которого нового сайта занимает 1-4 часа) и им велосипед не нужен. А люди без опыта скорее всего воспользоваться адекватно им не смогут.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
YCLIENTS Москва
от 200 000 до 350 000 ₽
Ведисофт Екатеринбург
от 25 000 ₽
ИТЦ Аусферр Магнитогорск
от 100 000 до 160 000 ₽
25 апр. 2024, в 09:29
2500 руб./за проект
25 апр. 2024, в 09:27
4000 руб./за проект
25 апр. 2024, в 09:20
10000 руб./за проект