Как пропарсить HTML теги, а также скобки и подобное?

Question

Артур @antoart

Web developer

Как пропарсить HTML теги, а также скобки и подобное?

Добрый день!

Как можно пропарсить HTML теги, принимая в расчет, что к каждому открытому тегу соответствует закрытый?

Это была задача.
Дан HTML файл, необходимо в этом файле найти все строки соответствующие заданному тегу.
Строчки в теге могут содержать вложенные теги.
Например, искомый тег
на входе

<span xml:lang="en" lang="en">Текст текст <b><span>Имя Фамилия</span></b></span>

на выходе

<span xml:lang="en" lang="en">Текст текст <b><span>Имя Фамилия</span></b></span>
<span>Имя Фамилия</span>

Я понимаю, что есть раззличные парсеры и библиотеки, но хотелось бы самому понять как это работает. Какие есть алгоритмы и как работают.

У меня есть мое решение. Оно рабочее, но чувствую, что можно сделать лучше и аккуратней.

public static void main(String[] args) throws Exception {

        String tagName = args[0]; // входящий тэг
        BufferedReader reader = new BufferedReader(new InputStreamReader(System.in));
        String filename = reader.readLine();
        reader.close();
        StringBuilder sb = new StringBuilder();

        //считал из файла все строки и перевел в одну строку
        BufferedReader br = new BufferedReader(new FileReader(filename));
        String data = br.readLine();
        while (data != null) {
            sb.append(data);
            data = br.readLine();
        }
        br.close();
        String fileData = sb.toString(); // итоговая строка для поиска в ней

        int n = fileData.indexOf(tagName);
        int flag = 0;
        ArrayList<Integer> forIndex = new ArrayList<>();
        while (n != -1) { //если нет тегов, то indexOf return -1
            String tag = fileData.substring(n-1, n + tagName.length());
            if (("<" + tagName).equals(tag)) { //если нашли открывающий тэг
                flag++;
                forIndex.add(n - 1);
            }
            else if (("/" + tagName).equals(tag)) { //если нашли закрывающий тэг
                flag--;
                forIndex.add(n + tagName.length() + 1);
            }
            if (flag == 0) { // когда закрыли открытый тэг
                while (forIndex.size() > 0) { //из списка индексов собрали индексы "по краям и вглубь"
                    int start = forIndex.remove(0);
                    int end = forIndex.remove(forIndex.size() - 1);
                    System.out.println(fileData.substring(start, end));
                }
            }
            n = fileData.indexOf(tagName, n + tagName.length());
        }
    }

Прошу вашей помощи в данном вопросе.

P.S. мне думается, что данные методики можно применять и при парсинге различных скобок, других тегов (XML) и подобном. Полезные знания могли бы получиться.

Вопрос задан более трёх лет назад
419 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Java-разработчик с нуля

12 месяцев

Далее
Академия Эдюсон

Java-разработчик + ИИ

8 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

3 комментария

Денис Загаевский @zagayevskiy Куратор тега Java

Только вот конечным автоматом html не распарсить, к сожалению. У него, вроде бы, контекстно-свободная грамматика, то есть на уровень выше по Хомскому, чем то, что можно распарсить конечным автоматом(регулярные грамматики).
Артур, почитайте про грамматики вообще, про регулярные и контекстно-свободные в частности.

Написано более трёх лет назад
Алексей Уколов @alexey-m-ukolov

Denis Zagayevskiy: да, вы правы произвольный html распарсить не выйдет. Но в ограниченных рамках поставленной задачи способ вполне применим.

Написано более трёх лет назад
Денис Загаевский @zagayevskiy Куратор тега Java

Алексей Уколов: нет, не прокатит, даже для этой задачи. У автора рекурсивные теги надо парсить, конечным автоматом (без стека) не получится.

Написано более трёх лет назад

1 комментарий

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программирование

+4 ещё

Простой
На сколько плох мой GitHub?
- 1 подписчик
- 03 июл.
- 867 просмотров
2

ответа
Программирование

+2 ещё

Средний
Поможете собрать компьютер для запуска виртуальных машин и коддинга?
- 1 подписчик
- 02 июл.
- 587 просмотров
5

ответов
Программирование

+4 ещё

Сложный
Что делать, на QEMU всё летает, а реальный Celeron D умирает?
- 2 подписчика
- 01 июл.
- 668 просмотров
1

ответ
Программирование

+4 ещё

Простой
Выбор между изучением c++ и Golang, что изучать?
- 3 подписчика
- 09 июн.
- 1372 просмотра
10

ответов
Программирование

Простой
Как создать и использовать свою кодировку знаков?
- 1 подписчик
- 02 июн.
- 729 просмотров
4

ответа
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 316 просмотров
0

ответов
Java

Простой
Почему не запускается Flyway?
- 1 подписчик
- 12 мая
- 184 просмотра
2

ответа
Java

Простой
Можно ли сделать «псевдоним» для пакета?
- 3 подписчика
- 06 мая
- 241 просмотр
1

ответ
Java

Простой
Возможно ли добавлять методы в пакет чужой библиотеки?
- 1 подписчик
- 05 мая
- 191 просмотр
2

ответа
Java

+2 ещё

Сложный
Как гарантировано закрыть сокет через ServerSocket?
- 2 подписчика
- 30 апр.
- 181 просмотр
1

ответ
Показать ещё Загружается…

Answer 1 · 2016-03-10 13:20:27

Алексей Уколов @alexey-m-ukolov

https://ru.wikipedia.org/wiki/Конечный_автомат
iteye.ru/255/konechnyj-avtomat-dlya-parsinga-javascript

taligarsiel.com/Projects/howbrowserswork1.htm#Pars...

Ответ написан более трёх лет назад

3 комментария

Answer 2 · 2016-03-11 13:21:04

Попробуйте воспользоваться средством, которое специально разрабатывалось для этой задачи: wiki.python.su/%D0%94%D0%BE%D0%BA%D1%83%D0%BC%D0%B...

Это не Java, но Python будет в разы проще.

Answer 3 · 2016-03-14 20:29:29

xml/html давно парсится чем только не лень, в Go он вообще, в stdlib.
самое известное для питона: lxml.de
Beautiful soup не советую, он старый и забытый.
Если хочется чистенько и самому, гуглите packrat парсеры и ABNF мета грамматику.
Симпатишно и быстро тут: https://github.com/Engelberg/instaparse

Как пропарсить HTML теги, а также скобки и подобное?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт