Спасибо всем за решения, однако всё равно остаётся много вопросов.
Например, сайты, которые будут основными при обкатке скрипта, мало того, что не содержат тега h1 в принципе, так ещё и свёрстаны на таблицах и ASP со всем вытекающим мусором.
А вот, скажем, плагин к хрому evernote сразу безошибочно выделил нужный столбец. Или вот как ВКонтакте сделали — скармливаешь им ссылку, они сразу «просмотр» и там содержательная часть статьи.
Вот нужно что-то аналогичное…