Как получить чистый текст html страницы? Грубо говоря текст который получается в браузере если нажать ктрл+а, из текста верстки. Желательно использовать апи браузера, чтобы избежать проблем с незакрытыми тегами или просто сломаной версткой какой то, браузер лучше все обрабатывает.
Если я правильно понял Ваш вопрос, то достаточно в самом браузере(консоли разработчика) вызвать:
1. Для полностью всей страницы: document.documentElement.innerHTML
2. Только для видимого содержимого: document.body.innerHTML