Хорош ли мой подход к созданию своего алгоритма движка разбора JSON, XML, HTML, CSS? А что насчет разбора кода на ЯП?

Question

VZVZ @VZVZ

Reverse-Engineer, Software Developer, Architect

Алгоритмы

Хорош ли мой подход к созданию своего алгоритма движка разбора JSON, XML, HTML, CSS? А что насчет разбора кода на ЯП?

Не то чтобы он даже мой, просто никаких иных решений мне не доводилось где-то встречать. И в голову не лезут.
В общем, мы берем исходный код (в виде строки) и просто в цикле обходим все ее символы, if'ами проверяя что за символ, и принимая соответствующее решение (для HTML: если "<", то создать ветвь, далее парсим тэг и аттрибуты; если ">", то далее парсим содержимое, также закрытие ветви и т.д.; всем этим вспомогательным stuffом - то есть созданием, закрытием и т.д. - заняты отдельные функции, дабы не загромождать сам код парсинга)
Ну а чтобы на каждом символе помнить, где именно мы находимся и каких символов должны ожидать (находимся ли мы внутри аттрибута с кавычками, или внутри аттрибута без кавычек, или мы находимся после "<" и должны ожидать ">", или внутри ветви, и т.д.) для этого есть переменная-перечисление (вариантов местонахождения) + еще переменные.

Вопросы:

1) Хорош ли такой подход для JSON, XML/HTML, CSS?

2) Как его назвать, чтоб "по-научному" и понятно было?

3) А оправдано ли его применение для парсинга не языка разметки, а реального ЯП, скажем JS?
Или для этой задачи это слишком "велосипедно"?

4) Ничего лучше в голову не лезет, ни для ЯП, ни тем более для JSON, XML/HTML, CSS...
Может, регулярки в прямых руках будут лучше? Почему тогда их не применяют в подобных движках?

Вопрос задан более трёх лет назад
587 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 5

1 комментарий

13 комментариев

VZVZ @VZVZ Автор вопроса

Спс, видимо, вы разбираетесь)
Я знаю, что такое BNF. Но это, так сказать, теория.
А на практике-то какой алгоритм применять для такого и в чем отличие от описанного? Только обход в разные стороны?
И почему так не распарсить goto? Я не вижу проблем.
"Абстрактное синтаксическое дерево" тоже ничего для меня не значит. В дерево бинарное - парсятся и JSON и XML. Дерево и дерево.

Написано более трёх лет назад
MiiNiPaa @MiiNiPaa

VZVZ: Забудьте про goto, попробуйте хотя бы рекурсивные определения шаблонов в С++ распарсить в один проход. Да хоть и простейшие обявления классов, где член к которому обращаются находится дальше по тексту, а нужно определить, существует ли он, прямо сейчас.

Написано более трёх лет назад
VZVZ @VZVZ Автор вопроса

MiiNiPaa: непонятно одно: зачем "прямо сейчас"?
Да, если не "прямо сейчас", то будет серьезный недостаток: такое будет тормозить, если его применить в штуках вроде IntelliSense (кстати, как такие штуки назвать "по-научному"?)
Но что если мы не собираемся пока делать такое? Если просто для компиляции-интерпретации, то сойдет и не "прямо сейчас", ИМХО

Написано более трёх лет назад
uvelichitel @uvelichitel

BNF грамматики рекурсивны. Finite State Machine (конечный автомат) не рекурсивен и не полон по Тьюрингу. Что бы распарсить < <><> > вам уже понадобится хотя бы автомат со стеком. Полноценные парсеры что бы получить лексему пробуют по очереди правила грамматики(которые могут быть рекурсивными) выбирают самое подходящее, могут строить гипотезы о дальнейшем вводе имеют память и имеют право подглядывать вперед. А заканчивают разбор не конечным состоянием, а деревом.

Написано более трёх лет назад
MiiNiPaa @MiiNiPaa

VZVZ: Прямо сейчас надо потому что от этого смысл может поменяться. Например есть у нас глобальная переменная foo. Если члена с таким именем нет, то всё ок, обращаемся по адресу этой переменной. Если есть, то надо взять смещение от this, а какое, можно узнать только прочитав всё определение класса. А если это функция-член, то нужно взять её адрес. А если она виртуальная, то надо ковыряться в vtable, в зависимости от её устройства.

Написано более трёх лет назад
VZVZ @VZVZ Автор вопроса

MiiNiPaa: давайте упростим задачу. Вернемся к goto.
Итак, у нас есть goto к метке, которая несколькими строчками ниже.
И нам, допустим, надо сразу все писать непосредственно в EXE-файл (допустим так адски важно быстродействие и простота)
Что мы делаем?
Распарсив goto, в EXE-файл пишем jmp 0; (пока что 0), при этом запомнив в коллекцию, что есть такой оператор goto, как называется метка и где именно в EXE-файле он находится.
А потом увидев эту метку, просто находим тот goto в коллекции и в соответствующий адрес EXE-файла ставим адрес метки.
Problems?

Написано более трёх лет назад
MiiNiPaa @MiiNiPaa

VZVZ: Ну например в зависимости от цели прыжка нужны разные опкоды. Причём разной длины. Причём иногда прыжок нелегален и совершать его нельзя. Например если между прыжком и целью объявляется и не уничтожается переменная.

Написано более трёх лет назад
VZVZ @VZVZ Автор вопроса

uvelichitel:
> Что бы распарсить < <><> > вам уже понадобится хотя бы автомат со стеком
Хм... Кажется на это уже напоролся. А что это за стек, если по-простому? Типа сек открытых скобок "<", чтобы не запустаться какая ">" для какой "<"?

Написано более трёх лет назад
uvelichitel @uvelichitel

VZVZ: В обшем да. Что бы вернуться на предыдущий шаг разбора, предыдущее состояние автомата, "местонахождение" в словами вашего вопроса.

Написано более трёх лет назад
Rsa97 @Rsa97
VZVZ: VZVZ: Это вы только такую пару скобок взяли. А попробуйте средней сложности JSON:
{ "array": [ {"key1": "val1"}, {"key2": { "xkey": ["xval1", "xval2", "xval3"], "zkey": "zval"} }, "val3" ] }

или некорректный, но вполне возможный HTML (браузеры его отображают):
<b> bold <i> bold-italic </b></i>
bold bold-italic
Написано более трёх лет назад
VZVZ @VZVZ Автор вопроса

Rsa97: спасибо и на том, конечно, прежде всего спасибо за "val3", но не понимаю, что вы хотите доказать. Библиотеки, написанные на таком принципе, уже ведь есть.
Получается, как про суслика, только наоборот: Суслика видишь? Да! А его нет!

Написано более трёх лет назад
Rsa97 @Rsa97

VZVZ: Я скорее хочу не доказать, а показать то, с чем вы столкнётесь. В JSON синтаксис строгий, поэтому его реализация достаточно простая, по EBNF создаётся автомат с магазинной памятью.
А вот для HTML нужна ещё обработка кучи исключений, его синтаксис не строгий и комбинация тегов не всегда однозначно раскладывается в дерево.

Написано более трёх лет назад
VZVZ @VZVZ Автор вопроса

Rsa97: Хм, может быть, вы и правы, вот HtmlAgilityPack работает не без изъянов. HTML пока отложу, буду заниматься JSON, XML. Спасибо.

Написано более трёх лет назад

2 комментария

12 комментариев

VZVZ @VZVZ Автор вопроса

Спасибо, почитаем.

Написано более трёх лет назад
Алексей П @ruddy22

VZVZ: к сожалению, это слишком большой объем информации. Теория алгоритмов целиком и полностью базируется на мат логике (не только на ней, но это неотъемлемая часть). Крепитесь!

Написано более трёх лет назад
VZVZ @VZVZ Автор вопроса

Алексей П: ну конечный автомат вроде уже понял. Сейчас попробую реализовать для JSON)) Уже могу считать себя специалистом по формальной грамматике, низшего ранга?

Написано более трёх лет назад
Денис Загаевский @zagayevskiy

Алексей П: Что-то вы не из той области советуете.

Написано более трёх лет назад
Алексей П @ruddy22

Denis Zagayevskiy: а почему вы так думаете? Мне кажется, что человек, который не знаком с мат логикой, будет не до конца понимать принципы формализации языков. Тем более, что в самом начале мат логики излагается понятие терма и лексической формы.
Поэтому, ваш ответ на данный вопрос, я считаю не полным, и ведущим мукам, в дальнейшем. Особенно п 4) - про формальные языки, грамматики и компиляторы.
Т.к. эти понятия подразумевают формальное подтверждение конструкции. К тому же, что такое компилятор? Лексический анализатор + синтакцический анализатор + транслятор + комановщик. Или вы думаете по-другому?

Написано более трёх лет назад
Денис Загаевский @zagayevskiy

Алексей П: для понимания теории формальных грамматик не обязательно штудировать фундаментальные труды по матлогу.

Написано более трёх лет назад
Алексей П @ruddy22

Denis Zagayevskiy: вы не ответили на мой вопрос

Написано более трёх лет назад
Денис Загаевский @zagayevskiy

Алексей П: про составные части компилятора? Согласен. Но это с остальными вашим высказываниями не связано вообще.

Написано более трёх лет назад
Алексей П @ruddy22

Denis Zagayevskiy: объясните, пожалуйста, в чем я не прав. Буду благодарен.

Написано более трёх лет назад
Денис Загаевский @zagayevskiy

Алексей П: не то, чтобы вы не правы, матлог - штука полезная. Но, извините, советовать это (да ещё плюс нумералы Чёрча) человеку, который рвётся в бой.. Ему надо взять и почитать основы того, чем он сейчас интересуется. Как правильно Д/Н КА представлять, как они с регулярными выражениями связаны, какие грамматики можно ими обработать, какие грамматики вообще существуют, какие есть способы парсинга, как сделать синтаксический анализатор (а того, что придумал автор, без костылей хватит максимум для лексического). Что такое AST - а автор сказал, что ему это ничего не говорит, ну так надо, что говорило. И прочее, и прочее. И для всего этого матлог не нужен. А вы ему Лисп предлагаете интерпретировать. Думаете, он знает, что такое лисп и функциональное программирование? А нафига интерпретировать то, что ты в принципе не понимаешь?

Написано более трёх лет назад
VZVZ @VZVZ Автор вопроса

Denis Zagayevskiy: что такое функциональное программирование, я знаю примерно.
Насчет основ - вы правы, но также параллельно им изучаю и готовые решения, в данном случае это Irony.NET (где, к слову, встретил и термин "AST"). То есть иду от примитивного к сложному, и параллельно от сложного к примитивному. Всегда так делал, и получалось, так я сети освоил, например. Что я делал не так?

Написано более трёх лет назад
Алексей П @ruddy22

VZVZ: у каждого свой метод познания того или иного знания. Мне кажется, что если Вам так удобно, тогда так и поступайте. Я привык есть "слона" по частям.
Добавлю про интерпретацию лиспа и ским, Вам выше посоветовали книгу Красного дракона, насколько я помню, она посвящена algol-подобным языкам. Разбор такого языка проблематичнее разбора лиспа, json и т.п.

Написано более трёх лет назад

13 комментариев

VZVZ @VZVZ Автор вопроса

Это тоже подходит под мою "теорию" "местоположения".
Перечисление (enum) будет выглядеть как-то так:
1) вне элемента
2) в элементе
3) в ключе
4) после ключа (здесь ищем ":")
5) в значении
6) после значения (ищем "," либо "}")
Это как минимум.
Разумеется, для полноценной поддержки JSON и enum будет длиннее и алгоритм "раскидистее", и вообще все сложнее.

Написано более трёх лет назад
VZVZ @VZVZ Автор вопроса

Причем здесь "n" и "v"? В JSON нет таких терминалов. Есть "{", "}" и т.д.

Написано более трёх лет назад
VZVZ @VZVZ Автор вопроса

Используется принцип флагов, т.е. как только прошли "{" или """, то в переменной меняется значение из enum и начиная со следующего символа мы его учитываем.

Написано более трёх лет назад
Денис Загаевский @zagayevskiy

VZVZ: { "name" : { "name1" : "value1" } } Тарам-парам-пам. Давайте вы напишете в своём духе парсер, который сможет распарсить подобные конструкции.

Написано более трёх лет назад
VZVZ @VZVZ Автор вопроса

Denis Zagayevskiy: Давайте вы мне лучше словами объясните, что не так?
Разумеется, будет предсусматриваться и " и { и [

Написано более трёх лет назад
Денис Загаевский @zagayevskiy

VZVZ: нет уж, зачем мне напрягаться? Я и так вижу, что с помощью конечного автомата эту конструкцию не распарсить. Напишите разбор и посмотрим вместе.

Написано более трёх лет назад
VZVZ @VZVZ Автор вопроса

Denis Zagayevskiy: почему? Именно ЭТУ - уже распарсил. Есть метод ParseObject(string), вот для каждого такого { "name1" : "value1" } он и вызывается рекурсивно. Правда, на настоящей рекурсии (хотя бы в 2 уровня, а не 1) сразу глюк. Но теоретически вполне можно сделать, и я сделаю. Правда, здесь уже начинаются проблемы при моем сонной башке, ибо сложновато, но ничего, на свежую голову продолжу.

Написано более трёх лет назад
Петр @petermzg

VZVZ: Вот чего в парсере не должно быть, так это рекурсии.

Написано более трёх лет назад
Денис Загаевский @zagayevskiy

VZVZ: стоп-стоп, вы описывали конечный автомат, а тут, вдруг, нарисовалась рекурсия. Сдаётся мне, вы изобретаете "метод рекурсивного спуска".

Написано более трёх лет назад
VZVZ @VZVZ Автор вопроса

Петр: Вот за это спасибо. Пожалуй, тут вы правы.

Написано более трёх лет назад
VZVZ @VZVZ Автор вопроса

Denis Zagayevskiy: похоже, рекурсии тоже не будет. Петр прав.
Будет другое: нарвавшись на "{" в value, мы создаем новый Object и далее ведем себя с ним так же, как и с коренным ("внешним") объектом, а при "}" закрываем этот объект и снова возвращаемся к "внешнему".
Так должно получиться без рекурсии.

Написано более трёх лет назад
Денис Загаевский @zagayevskiy

VZVZ: я, пожалуй, из этой бессмысленной дискуссии удалюсь.

Написано более трёх лет назад
VZVZ @VZVZ Автор вопроса

Denis Zagayevskiy: ну, если вам нечего сказать, то как пожелаете. А если вам есть что сказать по подходу "без рекурсии", или хотя бы знаете, как такое называется общепринято, чтобы вбить в гугл и что-то найти, то зря удаляетесь, ИМХО.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 314 просмотров
0

ответов
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 383 просмотра
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 217 просмотров
1

ответ
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 276 просмотров
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 425 просмотров
1

ответ
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт. 2025
- 401 просмотр
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт. 2025
- 293 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 250 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт. 2025
- 234 просмотра
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт. 2025
- 390 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2016-02-25 20:21:51

Rsa97 @Rsa97

Для правильного вопроса надо знать половину ответа

Для начала изучите то, что было придумано до вас. Начните, например, с книги красного дракона.

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2016-02-25 20:26:44

То что вы описали называется state_machine и это обычный подход для парсинга xml. Тьюринг полный ЯП так не распарсить, например не распарсить goto. ЯП описываются EBNF или другими достаточно варазительными грамматиками и парсятся в абстрактное_синтаксическое_дерево. Парсеры EBNF могут к примеру подсматривать вперед или назад.

Answer 3 · 2016-02-25 21:35:17

1) Нет, плох. Ничего у вас с этим подходом хорошего не выйдет.

2) Конкретно этот подход - детерминированный конечный автомат

3) Нет, не оправдано. Не получится.

4) Почитайте что-нибудь на тему теории формальных языков и грамматик. Конструирование компиляторов. Теория интерпретации компьютерных программ.
Регулярное выражение эквивалентно детерминированному конечному автомату, так что не выйдет.

Answer 4 · 2016-02-25 20:55:55

VZVZ: человек, прочитайте пожалуйста книги Колмогорова Андрея Николаевича по математической логике, а также труды Чёрча по лямбда-вычислениям, а затем Интерпретация Лисп(Lisp) и Ским(scheme). Потом уже переходите к алгоритмам. Как Вам правильно посоветовали: "Изучите ТО что было ДО ..."

Answer 5 · 2016-02-25 20:09:06

Местоположения мало.
Взять к примеру json - {"name": "value"}
Если обрабатываешь символ "n", то находишься в документ/обьект/наименование атрибута обьекта/текст
А если символ "v", то документ/обьект/значение атрибута обьекта/текст
И таких тонкостей много.

Хорош ли мой подход к созданию своего алгоритма движка разбора JSON, XML, HTML, CSS? А что насчет разбора кода на ЯП?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт