Задать вопрос

Получение текста статей (постов) со страницы без тегов

Всем привет!

Может кто-нибудь посоветовать библиотеки (желательно написанные на java) для выделения из html страницы основного текста и связанных с ним картинок?

Пример: передав на вход ссылку на страницу habrahabr.ru/post/193226/ на выходе получить:
это
Всего час назад случайно попалась на глаза новость о том, что Яндекс ввел возможность оплаты своего мобильного счета прямо через страничку поисковой системы. При этом в поисковой строке нужно набрать примерно то, что видно на анонсном скрине. Помимо всего прочего, можно вводить поисковые запросы типа «Пополнить счет МТС», или аналогичные запросы на украинском языке (да, работает и в/на Украине).

Оплату при этом можно провести как со своего счета в «Яндекс. Деньги», при условии наличия такового, либо с кредитной карты (тут уж каждый решает сам, насколько это безопасно).

<картинка>

По словам разработчиков, такая тразакция полностью безопасна, поскольку оплата происходит «на странице, защищенной по международному стандарту PCI DSS». Если оплата проводится ЯД-ом, тогда нужно вводить либо платежный пароль, либо пароль из СМС. Если же оплата счета проводится кредиткой, само собой, нужно вводить и номер кредитки, и CVV, и код, присылаемый на телефон пользователю его банком.
  • Вопрос задан
  • 4381 просмотр
Подписаться 8 Оценить Комментировать
Решения вопроса 1
rvller
@rvller Автор вопроса
Нашёл сам: code.google.com/p/boilerpipe/
Позволяет вытащить основной контент страницы (без всех второстепенных блоков).
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 2
psylostlife
@psylostlife
Можно попробовать искать тем же jQuery в коде страницы блок с большим количеством текста, удалить из него тэги форматирования, пропарсить тэги img и удалить их код, заменив простой ссылкой. Как-то так.
Ответ написан
valkiriy
@valkiriy
Java/JavaScript dev
В консоли браузера — $('.content').text()
Я не пробовал, но такое должен уметь любой html парсер. Например jsoup.org/
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы