Многие сайты, выполненные на популярных движках, имеют шаблонную верстку. А это вам на руку. Всякие DLE, WordPress и подобные четко выделяют css-классами основной контент страницы. Можно идентифицировать на этой основе примененный движок и однократно написать запросы к SHD (Simple HTML DOM, выше упоминалось). Для нераспознанных сайтов стоит искать знаковые блоки (main, content, body и т.п.).