(Этот вопрос уже 3-й раз поднимается на тостере.)
Общий принцип такой: Самый большой (по объёму) текст внутри ПЕРВОГО! контейнера (div,td) каждой "ветки" в DOM-"дереве" без тегов разметки текста (a,font, h1,h2,h3,p,img,b,i,u,s,sub,sup,span и т.д.) и будет основным текстом страницы.
PS: обязательно поправьте, если что-то упущено.
PS2: документация для Delphi:
тут