Нужно парсить HTML, но только не делай это через регулярные выражения. Каждый раз когда ты парсишь HTML регулярками — в мире умирает один разработчик.
Для Хабра, например футер легко найти, у него логичный id:
<div id="footer">
Дальше ты берешь весь текст из футера и ищешь там название компании и ссылки на страницу "Контакты".
У других сайтов футер или хедер найти будет тяжелее. Нужно будет проанализировать несколько десятков сайтов и составить список правил, по котором можно будет легко найти в коде страницы блоки с нужными елементами.</div>