Есть желание написать с нуля парсер HTML понимающий не валидный HTML. Посоветуйте пожалуйста литературу, ссылки, источники информации. Хочу на писать с целью изучения и более глубинного понимания данной сферы.
Интересны так же алгоритмы разбора HTML который совершенно не соответствует стандартам, но при этом позволяют восстановить структуру документа. Так как это умеют делать современные браузеры.
Спасибо огромное. Жду ответов и благодарен за любую информацию по данной теме.
Спасибо :-) Находил его, но воспринимал его только как HTML5 валидатор, а хотел найти такое универсальный прям, что так с места в карьер :-) Но как один из примеров как решать задачу - очень даже интересный. Спасибо :-)
Beautiful Soup - это парсер для синтаксического разбора файлов HTML/XML, написанный на языке программирования Python, который может преобразовать даже неправильную разметку в дерево синтаксического разбора
Статей по валидации и восстановлению нету, т.к. эту задачу решает каждая компания (chrome, forefox, opera) отдельно и от того как они её решат зависит скорость работы браузера и собственно доходность бизнеса. Всякая фигня типа "забить vector тэгами и за О(n^99) перепроверить в while(true)" не нужна. Можете поискать решение в исходниках code.google.com/p/chromium/.