Во многих современных браузерах есть так называемый "режим чтения" который оставляет на странице только текст статьи с картинками, удаляя все прочее форматирование, рекламу и лишние блоки сайта.
Как эта фича реализована программно?
Какой алгоритм можно использовать чтобы так же грамотно получить с веб страницы текст статьи без лишних блоков?
Анализ DOM-дерева и выявление блока, содержащего основной контент.
Простая фильтрация по кол-ву текста в одном уникальном блоке без повторов (списков) на текущем уровне DOM-дерева.