Android парсинг HTML?

Question

andreevich @andreevich

Android парсинг HTML?

Добрый день, разбирал вот этот пример habrahabr.ru/blogs/android/91815/, кусок кода, где парсится профиль пользователя для нахождения аватарки. Там всё реализовано через работу со строкой — один substring().

Возник вопрос: Можно ли пробежаться по DOM полученного документа, как, например, с jQuery, опираясь на классы и идентификаторы элементов?

Или, может, подскажите более гуманный метод получения данных со страницы.

Спасибо!

Вопрос задан более трёх лет назад
11316 просмотров

Комментировать

Подписаться 7 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Яндекс Практикум

Профессиональная вёрстка на HTML и CSS

3 месяца

Далее
Академия Эдюсон

Frontend-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 6

1 комментарий

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Простой
HH.ru блокирует новые аккаунты через 10–15 минут после создания, почему?
- 1 подписчик
- 29 июл.
- 161 просмотр
1

ответ
Android

+1 ещё

Средний
Как имитировать конкретное устройство Android в QEMU?
- 1 подписчик
- 29 июл.
- 84 просмотра
1

ответ
Android

+4 ещё

Сложный
Exchange 2019 CU14 on-prem + AD FS (без Azure AD) — удаcтся ли настроить ModernAuth для внешних почтовых агентов на андроид?
- 1 подписчик
- 17 июл.
- 157 просмотров
1

ответ
HTML

+2 ещё

Простой
Как запретить формирования ссылок вида /tel:?
- 2 подписчика
- 01 июл.
- 323 просмотра
3

ответа
HTML

+1 ещё

Средний
Как выставить элементу ширину по содержимому при переносах?
- 2 подписчика
- 30 июн.
- 195 просмотров
1

ответ
Android

+1 ещё

Простой
Реально ли сейчас зарегать аккаунт в Play Console?
- 2 подписчика
- 27 июн.
- 401 просмотр
1

ответ
HTML

+3 ещё

Средний
Как создать каркас верстки который будет считаться по высоте, а не по ширине?
- 4 подписчика
- 26 июн.
- 425 просмотров
4

ответа
JavaScript

+2 ещё

Простой
Не работает тень + слайдер, есть варианты?
- 2 подписчика
- 21 июн.
- 220 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 741 просмотр
2

ответа
HTML

+1 ещё

Простой
Как оформить так карточку типа бенто стиль?
- 1 подписчик
- 13 июн.
- 264 просмотра
3

ответа
Показать ещё Загружается…

Answer 1 · 2011-02-06 01:51:03

Скажите, какая стоит задача? Ведь можно использовать регулярки.

Вот, например, как я вытягивал значения с html-странички:

    public String GetTemper(String urlsite) // фукция загрузки температуры
    {
        String matchtemper = "";
        try
        {
                // загрузка страницы
            URL url = new URL(urlsite);
            URLConnection conn = url.openConnection();
            InputStreamReader rd = new InputStreamReader(conn.getInputStream());
            StringBuilder allpage = new StringBuilder();
            int n = 0;
            char[] buffer = new char[40000];
            while (n >= 0)
            {
                n = rd.read(buffer, 0, buffer.length);
                if (n > 0)
                {
                    allpage.append(buffer, 0, n);                    
                }
            }
            // работаем с регулярками
            final Pattern pattern = Pattern.compile
            ("<span style=\"color:#[a-zA-Z0-9]+\">[^-+0]+([-+0-9]+)[^<]+</span>[^(а-яА-ЯёЁa-zA-Z0-9)]+([а-яА-ЯёЁa-zA-Z ]+)");
            Matcher matcher = pattern.matcher(allpage.toString());
            if (matcher.find())
            {    
                matchtemper = matcher.group(1);            
            }        
            return matchtemper;
        }
        catch (Exception e)
        {
            
        }
        return matchtemper; 
    };

Answer 2 · 2011-02-05 16:17:54

Тема интересная, погуглил немного и понял, что парсинг делают с помощью разбора Xml, правда подход спорный, т.к. html не всегда является валидным Xml, что касается библиотек для работы с Dom, то на сегодняшний день, я так понимаю, ничего подобного нет.

Ссылки, которые могут быть полезны:
Android HTML Dom (ссылка в ответе)
Android parsing HTML entities using DOM parser for RSS feed

Answer 3 · 2011-02-05 18:52:37

Для ваших целей можно использовать, например, htmlcleaner. Простенькая библиотека для дом-парсинга.
Еще есть Html Parser, он довольно громоздкий, но зато поддерживает CSS селекторы.
В плане скорости, конечно же лучше всего будет воспользоваться SAX xml парсером.

Answer 4 · 2011-02-05 21:55:45

В своем приложении я для этой цели пользуюсь связкой TagSoup (генератор валидного XHTML из практически любого HTML) и SAX Parser. Работает неплохо.

Answer 5 · 2011-02-05 21:57:42

Еще забыл — с версии 2.2 (кажется) в Android наконец добавили поддержку XPath, по уму это как раз инструмент для этой цели. Но опять же, нужен TagSoup или другой инструмент, чтобы получить валидный xhtml.

Answer 6 · 2015-05-21 11:30:44

Самый гуманный Jsoup . Просто и быстро. Только вот у меня на Android 4.4 почему то тормозит нереально (в то время как на 2.2 тот же код летает). В общем проверяйте на виртуальных машинах.

Android парсинг HTML?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт