Как локализовать ошибку в LR-парсере?

Question

Дмитрий Макаров @DmitryITWorksMakarov

Как локализовать ошибку в LR-парсере?

На всякий случай расскажу подробнее что я понимаю под LR-парсером и что у меня за проблема.

Есть последовательность лексем разных типов.
Есть упорядоченный набор правил.
Правило ставит в соответствие ряду лексем определенных типов одну лексему.

Кладем лексему в стек и если вершина стека (несколько верхних элементов) соответствует правилу, то подменяем её в соответствие с правилом.
Если подмена произошла, то начинаем проверять на соответствие правилам сначала, если нет, то кладем в стек следующую лексему.

Если в итоге в стеке остается один элемент, то последовательность лексем корректная и разбор завершился успешно.

Лексемы у меня это TreeNode. При замене по правилу удаленные лексемы я присоединяю как дочерние элементы к добавленной лексемы. В итоге оставшийся элемент у меня оказывается корнем дерева.

public class Lexem : TreeNode
    {
        public int Offset { get; set; }
        public int Length { get; set; }
        public LexemKind Kind { get; set; }
        public string Value {get;set;}
        
        public static Lexem GetLexem(LexemKind inKind)
        {
            return new Lexem() { Kind = inKind };
        }
    }

        public Lexem GetFormula()
        {
            var stack = new List<Lexem>();

            foreach (var lexem in lexer.GetLexems())
            {
                stack.Insert(0, lexem);
                while (true)
                {
                    Rule rule = null;
                    Lexem[] currentSet = null;
                    foreach (var nextRule in _Rules)
                    {
                        if (stack.Count < nextRule.IN.Length) continue;
                        currentSet = new Lexem[nextRule.IN.Length];
                        for (var idx = 0; idx < nextRule.IN.Length; idx++)
                        {
                            currentSet[idx] = stack[nextRule.IN.Length - idx - 1];
                            if ((nextRule.IN[idx] & currentSet[idx].Kind) != LexemKind.EMPTY) continue;
                            currentSet = null;
                            break;
                        }

                        if (currentSet == null) continue;

                        rule = nextRule;
                        break;
                    }

                    if (rule == null) break;

                    stack.RemoveRange(0, rule.IN.Length);
                    stack.Insert(0, Lexem.GetLexem(rule.OUT));
                    stack[0].Nodes.AddRange(currentSet);
                }
            }
            if (stack.Count == 0) return  null;
            if (stack.Count == 1) return stack[0];

            throw new ParserExeption();
        }

Собственно, вопрос: как определить в каком месте нарушился синтаксис во входной последовательности лексем?

Вопрос задан более трёх лет назад
229 просмотров

2 комментария

Подписаться 3 Оценить 2 комментария

Алексей Кулаков @carbon88

Предполагаю, что если для некоторой лексемы не находится правила, то тут получаем ошибку. Вот тут есть про простенький LR-анализатор.

P.S. Предлажу вам использовать System.Collections.Generic.Stack, который собственно и есть нужный вам стек, вместо такого дурного использования System.Collections.Generic.List.

Написано более трёх лет назад
Дмитрий Макаров @DmitryITWorksMakarov Автор вопроса

Если для очередной лексемы нет правила, то это не факт, что ошибка. Возможно, когда появится следующая лексема, правило какое-нибудь и применится.
Поясню примером: пусть есть последовательность лексем такая: "a", "+", "b";
когда в стеке уже лежит "а", появление лексемы "+" и добавление ее в стек не повлечет применения никого правила, но это еще не ошибка. Когда придет в стек следующая лексема "b", то к вершине стека можно будет применить правило: FORMULA <- (IDENTIFIKATOR,OPERATION,IDENTIFIKATOR).
Ошибка же должна определяться если последовательность лексем например такая: "a", "+", "+", "b".
Как отличить первый случай от второго?

P.S. По поводу System.Collections.Generic.Stack. Мне он не подходит. Мне нужно анализировать несколько верхних элементов не удаляя их. System.Collections.Generic.Stack позволяет Peek`ом смотреть только один верхний элемент. Можно, конечно, реализовать какой-нибудь свой стек, а можно использовать System.Collections.Generic.List. Да не очень красиво называть лист стеком. Ну давайте назовем его workStorage или pit, например.

P.P.S. Я смотрел статьи по LR`ам. Я, собственно, по ним и писал свою реализацию. Но с локализацией чего-то у меня не складывается. Не понимаю. Хорошо бы кто-то объяснил на пальцах.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Разработчик игр на Unity

13 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unity + ИИ

6 месяцев

Далее
Stepik

PRO C#. Профессия "Backend разработчик"

4 месяца

Далее

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

Дмитрий Макаров @DmitryITWorksMakarov Автор вопроса

Так...а у меня в реализации как такового выделенного конечного автомата с состояниями и переходами нету. Если проанализировать, то у меня если не REDUCE, то всегда SHIFT. Как по списку правил создать конечный автомат или где почитать?

Написано более трёх лет назад
middle @middle

Дмитрий Макаров: любая книжка, где описываются LR-парсеры. Ахо-Сети-Ульман (aka Dragon book), Хантер "Проектирование и конструирование компиляторов" (там, помнится, попроще объяснение). Можно даже в английскую википедию заглянуть :)

Или просто взять готовый генератор парсеров для .Net и использовать его (это же не курсовая?).

И посмотрите на LL-парсеры. Их реализовать проще, но иногда грамматику под них нужно переписывать -- удалять левую (ЕМНИП) рекурсию.

Написано более трёх лет назад
Дмитрий Макаров @DmitryITWorksMakarov Автор вопроса

Не...не курсовая. В рамках профессиональной деятельности хочу разобраться в вопросе, чтобы понимать как работает, какие ограничения и почему.
А какие генераторы парсеров для .NET посоветуете?

Написано более трёх лет назад
middle @middle

Дмитрий Макаров: ну тогда прочитайте Хантера, книжка небольшая.
Я с .NET не работал, ничего посоветовать не могу.

Написано более трёх лет назад
Дмитрий Макаров @DmitryITWorksMakarov Автор вопроса

Ок. Спасибо за ответ.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 700 просмотров
2

ответа
C#

+4 ещё

Сложный
Как сделать правильную перемотку видео в Flyleaf (wpf)?
- 3 подписчика
- 15 июн.
- 218 просмотров
1

ответ
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 332 просмотра
0

ответов
C#

+1 ещё

Средний
Как передать изображение на принтер TSC?
- 1 подписчик
- 12 мая
- 148 просмотров
1

ответ
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 375 просмотров
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 119 просмотров
1

ответ
C#

+2 ещё

Простой
Как заставить кнопки в ScrollView корректно перераспределять остальные элементы при анимации?
- 1 подписчик
- 10 апр.
- 109 просмотров
1

ответ
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 405 просмотров
2

ответа
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 394 просмотра
3

ответа
C#

Простой
Как прочесть без блокировок в многопоточном приложение 16 байт структурное значение?
- 1 подписчик
- 30 мар.
- 200 просмотров
1

ответ
Показать ещё Загружается…

Предполагаю, что если для некоторой лексемы не находится правила, то тут получаем ошибку. Вот тут есть про простенький LR-анализатор.

P.S. Предлажу вам использовать System.Collections.Generic.Stack, который собственно и есть нужный вам стек, вместо такого дурного использования System.Collections.Generic.List.

Answer 1 · 2015-05-21 10:14:45

LR-парсер состоит из стека и конечного автомата. В конечном автомате дуги помечены двумя типами меток: SHIFT либо REDUCE <правило>. В приведённом вами примере при первом '+' будет произведён SHIFT (с переходом в соответствующее состояние), при последующем "b" будет произведён REDUCE по приведённому вами правилу с переходом в какое-то состояние.

Если же после первого '+' придёт второй '+', то это будет ошибкой, т.к. для текущего состояния не будет исходящей дуги для второго '+', ни SHIFT, ни REDUCE (дуга будет только для IDENTIFIER, если других правил нет).

Как локализовать ошибку в LR-парсере?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт