Как преобразовать html мнемоники и ASCII последовательности в текст на Java?

Здравствуйте уважаемые хабраграждане.

Делаю приложение под Андроид. Суть приложения в том что бы парсить определенный сайт и заносить к себе в базу определенные данные.

Столкнулся с проблемой, в данный содержаться html мнемоники (пример: &\lt;) и ASCII последовательности (пример: &\#039;)


Вопрос в том, как эти данные преобразовать в обычный текст?

Гугление никуда меня не привело, а может быть неправильно гуглил!?


Заранее весьма благодарен!!!

UPD: Засунул слеш после & (амперсанта) потому что браузер интерпретирует их!
  • Вопрос задан
  • 4434 просмотра
Пригласить эксперта
Ответы на вопрос 4
xel
@xel
front end developer
Не проще ли данные просто выводить компонентой web-браузера?

Если же хочется всё же решить задачу рекомендую посмотреть как устроена функция html_entity_decode в phpjs. Ключевой момент — использование специальной таблицы для многочисленных мнемоник. Те, которые заданы шестандцатиречным числом, можно и попросту сконвертировать выдрав регуляркой код символа и подставив на его место символ с соответствующим кодом.
Ответ написан
titulusdesiderio
@titulusdesiderio
IT-специалист
UPD: Засунул слеш после & (амперсанта) потому что браузер интерпретирует их!

вместо слешей (;
< = <
Ответ написан
vasart
@vasart
Для решения этой задачи в Android есть класс android.text.Html

Html.fromHtml("&\lt;").toString();
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
Ideas World Симферополь
от 100 000 ₽
Почта Банк Москва
от 207 000 до 240 000 ₽
от 120 000 до 200 000 ₽
08 апр. 2020, в 20:18
35000 руб./за проект
08 апр. 2020, в 19:41
2000 руб./за проект