Здравствуйте!
Задача в следующем: нужно провести парсинг стороннего сайта с целью получения сведений об информации, которая вводится в различные поля в формах.
То есть, на выходе хотелось бы получить хотя бы что-то вроде списка форм и полей в них (плюс, тип поля, его значение, лейблы, подсказки, маски и т. д. - всё, что описывает вводимые данные), чтобы понимать: какие данные могут быть введены пользователем на этом сайте.
Есть один нюанс: в современном web'е формы могут генерироваться на стороне клиента - их желательно тоже как-то учесть при парсинге.
Существуют ли готовые решения или технологии под такую задачу?
Решения предпочтительны на языке PHP или JavaScript, но буду благодарен за любые полезные варианты.
Alex: можно сканировать DOM на наличие элементов форм, получать значения name, id и value и при отправке формы передавать данные в обработчик php который перешлет данные вам на сервер
Не совсем то. Я не уточнил, что сканируется сторонний сервер. По этому при отправке формы пользователем я не могу ничего получить. Мне нужна информация в принципе о всех возможных формах на сайте, а не только тех, что заполнил и отправил пользователь.
OVK2015: спасибо! Как раз в ответе к другому вопросу увидел этот же вариант.
Не подскажете, есть ли намётки для решения моей или похожей задачи на PhantomJS? Либо искать самому в npm?
Alex: Честно говоря, не подскажу. PhantomJS предложил потому как, формы действительно могут генерироваться js на клиенте. Ну и соответственно парсингом html на предмет form тегов,- какую-то часть пропустите.
Хотя... Как я понимаю, примерную структуру сайта знаете,- может и php curl`ом обойдетесь