Как написать HTML Parser с нуля?

Question

me1 @me1

HTML

Как написать HTML Parser с нуля?

Добрый день.

Есть желание написать с нуля парсер HTML понимающий не валидный HTML. Посоветуйте пожалуйста литературу, ссылки, источники информации. Хочу на писать с целью изучения и более глубинного понимания данной сферы.

Интересны так же алгоритмы разбора HTML который совершенно не соответствует стандартам, но при этом позволяют восстановить структуру документа. Так как это умеют делать современные браузеры.

Спасибо огромное. Жду ответов и благодарен за любую информацию по данной теме.

Вопрос задан более трёх лет назад
4491 просмотр

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Академия Эдюсон

Frontend-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Инженер по тестированию + ИИ

6 месяцев

Далее

Решения вопроса 3

1 комментарий

4 комментария

me1 @me1 Автор вопроса

Спасибо :-) А умеет ли он понимать не валидный HTML ?

Написано более трёх лет назад
Илья Казначеев @Color

Beautiful Soup - это парсер для синтаксического разбора файлов HTML/XML, написанный на языке программирования Python, который может преобразовать даже неправильную разметку в дерево синтаксического разбора

Написано более трёх лет назад
Илья Казначеев @Color

goo.gl/RDp4Wm

Написано более трёх лет назад
me1 @me1 Автор вопроса

Благодраю, приступил к изучению :-)

Написано более трёх лет назад

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

HTML

+2 ещё

Простой
Как запретить формирования ссылок вида /tel:?
- 2 подписчика
- 01 июл.
- 294 просмотра
3

ответа
HTML

+1 ещё

Средний
Как выставить элементу ширину по содержимому при переносах?
- 1 подписчик
- 30 июн.
- 170 просмотров
1

ответ
HTML

+3 ещё

Средний
Как создать каркас верстки который будет считаться по высоте, а не по ширине?
- 4 подписчика
- 26 июн.
- 394 просмотра
4

ответа
JavaScript

+2 ещё

Простой
Не работает тень + слайдер, есть варианты?
- 2 подписчика
- 21 июн.
- 202 просмотра
1

ответ
HTML

+1 ещё

Простой
Как оформить так карточку типа бенто стиль?
- 1 подписчик
- 13 июн.
- 243 просмотра
3

ответа
HTML

+2 ещё

Простой
Как блок уведомлений поднять выше dialog?
- 2 подписчика
- 21 мая
- 197 просмотров
2

ответа
HTML

+1 ещё

Простой
Как свг заменить на фон?
- 1 подписчик
- 08 мая
- 300 просмотров
1

ответ
HTML

+1 ещё

Простой
Чем препроцессить в HTML сокращения?
- 2 подписчика
- 04 мая
- 355 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Почему у поля input атрибут required не срабатывает?
- 2 подписчика
- 01 мая
- 394 просмотра
2

ответа
JavaScript

+1 ещё

Простой
Как обновлять данные массива, чтобы по нажатию на кнопку на странице добавлялся еще один элемент массива?
- 3 подписчика
- 12 апр.
- 771 просмотр
4

ответа
Показать ещё Загружается…

Answer 1 · 2014-06-27 22:26:59

Lo-fi @hrls

Для тех, кто умеет читать код https://github.com/google/gumbo-parser

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2014-06-27 18:42:30

Илья Казначеев @Color

Golang SWE, Cloud & DevOps

Я могу предложить вам Прекрасный Суп! (есть и в русской кухне)

Ответ написан более трёх лет назад

4 комментария

Answer 3 · 2014-06-27 22:20:25

Статей по валидации и восстановлению нету, т.к. эту задачу решает каждая компания (chrome, forefox, opera) отдельно и от того как они её решат зависит скорость работы браузера и собственно доходность бизнеса. Всякая фигня типа "забить vector тэгами и за О(n^99) перепроверить в while(true)" не нужна. Можете поискать решение в исходниках code.google.com/p/chromium/.

Как написать HTML Parser с нуля?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт