Как написать HTML Parser с нуля?

Добрый день.

Есть желание написать с нуля парсер HTML понимающий не валидный HTML. Посоветуйте пожалуйста литературу, ссылки, источники информации. Хочу на писать с целью изучения и более глубинного понимания данной сферы.

Интересны так же алгоритмы разбора HTML который совершенно не соответствует стандартам, но при этом позволяют восстановить структуру документа. Так как это умеют делать современные браузеры.

Спасибо огромное. Жду ответов и благодарен за любую информацию по данной теме.
  • Вопрос задан
  • 4484 просмотра
Решения вопроса 3
hrls
@hrls
Для тех, кто умеет читать код https://github.com/google/gumbo-parser
Ответ написан
Color
@Color
Golang SWE, Cloud & DevOps
Я могу предложить вам Прекрасный Суп! (есть и в русской кухне)
Ответ написан
@lookid
Статей по валидации и восстановлению нету, т.к. эту задачу решает каждая компания (chrome, forefox, opera) отдельно и от того как они её решат зависит скорость работы браузера и собственно доходность бизнеса. Всякая фигня типа "забить vector тэгами и за О(n^99) перепроверить в while(true)" не нужна. Можете поискать решение в исходниках code.google.com/p/chromium/.
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы