Перехват и разбор пакетов, генерация html страниц, в python
Захожу на сайт site.com, перехожу в нем по ссылкам.
Задача — генерировать html-страницы, которые я посетил.
Как это можно сделать(начиная от перехвата трафика по порту 80,
заканчивая разбором и компоновкой пакетов)?
Сайт не мой, а произвольный.
Хочу научиться отслеживать похожие блоки запросов,
для автоматической генерации функций API(которых нет у конкретного сайта).
Вопрос скорее про расшифровку этих приходящих пакетов — поймать их не основная проблема.
А вот как отследить переход по ссылке. Как декодировать в html? Как понять что содержится в пакете(файлы(css, js, swf, mov, и пр.), или просто текст?)
Отслеживаете tcp-пакеты на 80-й порт айпишника site.com. «Разворачиваете» их из tcp. Увидите во входящих что-то вроде: HTTP/1.1 200 OK
...
Content-Type: text/html; charset=utf-8
...
Мне нужно перезаписать вопрос так, чтоб он был немного понятнее ;))))
Я имел ввиду, что я выступаю в качестве клиента какого-то сайта.
Хожу по ссылкам. Сайт мне возвращает какую-то инфу.
Задача — перехватить эту инфу с 80ого порта, чтобы генерировались страницы, которые видит браузер.
Примечание — Обязательно, начиная с самого низкого уровня(разбора пакетов).
Вот вопрос возник от того, что я не имею представления,
как это можно сделать в принципе.
Так точно.На питоне, т.к. я пока не горю желанием другой язык осваивать. :)
Да принцип разбора пакетов интересен. Методика их разбора и генерации на основе них html-страничек одна и та же для любого языка. Вот её и не знаю где искать.