Почему мой лексер выдает неизвестные токены?

Question

sakair @sakair

C

Почему мой лексер выдает неизвестные токены?

Я пишу простой лексер для перевода русских инструкций на стандартные nasm инструкции...
Мой sasm.c код

#include <stdio.h>

#include "lexer.h"

int main() {
	char text[] = "пер ар 10";
    char *content = text;

	printf("%s\n\n", text);

    Token token;
    while ((token = lexer(&content)).type != TOKEN_EOF) {
        printf("Token: Type = %d, Name = '%s'\n", token.type, token.name[0] ? token.name : "Empty");
    }

	return 0;
}

А вот мой lexer.c

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <ctype.h>
#include "lexer.h"

static int pos = 0; // Позиция для лексера

static void skip_whitespace_and_comments(char **input) {
    while (isspace((*input)[pos]) || ((*input)[pos] == ';')) {
        if ((*input)[pos] == ';') {
            while ((*input)[pos] != '\n' && (*input)[pos] != '\0') {
                pos++;
            }
        } else {
            pos++;
        }
    }
}

Token lexer(char **input) {
    Token token;
    memset(&token, 0, sizeof(Token)); // Обнуляем структуру токена

    skip_whitespace_and_comments(input); 

    if ((*input)[pos] == '\0') {
        token.type = TOKEN_EOF;
        return token;
    }

    // Обработка команд
    if (strncmp(&(*input)[pos], "пер", 3) == 0) {
        token.type = MOV;
        strncpy(token.name, "mov", sizeof(token.name));
        pos += 3;
    } 
    else if (strncmp(&(*input)[pos], "ар", 2) == 0) {
        token.type = RAX; 
        strncpy(token.name, "rax", sizeof(token.name));
        pos += 2;
    } 
    else if (isdigit((*input)[pos])) {
        token.type = TOKEN_NUMBER;
        char num[50];
        int i = 0;

        while (isdigit((*input)[pos])) {
            if (i < sizeof(num) - 1) {
                num[i++] = (*input)[pos];
            }
            pos++;
        }
        num[i] = '\0';
        strncpy(token.name, num, sizeof(token.name)); 
    } else {
        // Обработка неизвестного токена
        pos++; // пропуск неизвестного символа
    }
    return token;
}

Вывод bash

./sasm
пер ар 10

Token: Type = 0, Name = 'mov'
Token: Type = 0, Name = 'Empty'
Token: Type = 0, Name = 'Empty'
Token: Type = 0, Name = 'Empty'
Token: Type = 7, Name = 'rax'
Token: Type = 0, Name = 'Empty'
Token: Type = 0, Name = 'Empty'
Token: Type = 16, Name = '10'

Сначало я подумал, что проблема в кодировки, но все файлы в UTF-8 кодировки, так же вместо "пер" я попробовал сравнивать напрямую в код UTF-8, вот пример strncmp(&(*input)[pos], "\xD0\xBF\xD0\xB5\xD1\x80", 6) == 0.
Я использую clang, но и с gcc такая же проблема, просьба помочь.

Вопрос задан 25 окт. 2025
177 просмотров

2 комментария

Подписаться 1 Средний 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Разработчик на C++

12 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unreal Engine + ИИ

9 месяцев

Далее
Stepik

Профессия: Разработчик C++ (Junior)

2 месяца

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C

+2 ещё

Сложный
Почему зависают прерывания клавиатуры (IRQ1) после первого нажатия при переходе на GOP в самописной ОС (x86_64)?
- 1 подписчик
- 12 июл.
- 203 просмотра
2

ответа
C

+1 ещё

Средний
Как работает выравнивание памяти в С в структурах?
- 1 подписчик
- 07 июл.
- 159 просмотров
2

ответа
C

Средний
Почему при передаче указателя в функцию, функция получает копию?
- 1 подписчик
- 17 июн.
- 183 просмотра
4

ответа
C

Простой
Форк небольшой мат. библиотеки на Си, где искать исполнителей?
- 1 подписчик
- 04 мар.
- 298 просмотров
2

ответа
C

+1 ещё

Простой
Pthread, чистый си, откуда ошибка сегментирования?
- 1 подписчик
- 03 мар.
- 253 просмотра
2

ответа
C++

+2 ещё

Простой
Заголовочные файлы в Си нужны только для интерфейса?
- 3 подписчика
- 26 февр.
- 682 просмотра
5

ответов
C++

+1 ещё

Простой
Как найти причину недетерминизма программы?
- 1 подписчик
- 12 февр.
- 342 просмотра
4

ответа
C

+4 ещё

Средний
Почему прошивка для STM32F103 не запускается после перехода с Keil на Cmake?
- 2 подписчика
- 11 дек. 2025
- 290 просмотров
0

ответов
Debian

+1 ещё

Простой
Где OpenWatcom в Debian!?
- 1 подписчик
- 17 нояб. 2025
- 224 просмотра
1

ответ
C++

+1 ещё

Средний
Имя массива это адрес первого элемента или указатель на его первый элемент в Си?
- 2 подписчика
- 12 нояб. 2025
- 687 просмотров
5

ответов
Показать ещё Загружается…

А если файлы все таки сделать не UTF-8 а более привычное ASCII?

Я доказать честно говоря не могу, тем более что у вас константная строка зашита прям в код, но все таки вы смещаетесь всегда по массиву на размер char, а один символ в юникоде - больше чем размер чара. Вот и получается что смещаетесь вы "недостаточно".

А та проверка что вы написали в вопросе - невалидна, т.к. по сути вы сравнили 6 байт в памяти, которые к символам юникода не имеют отношения.
Ну и в целом тут явно поможет отладчик ;-)

Answer 1 · 2025-10-26 03:29:09

if (strncmp(&(*input)[pos], "пер", 3) == 0) {

Если очень хочется сравнивать строки так, то вместо 3 правильнее будет написать sizeof("пер") -1. И вместо pos += 3; -- pos += sizeof("пер") - 1;

Почему мой лексер выдает неизвестные токены?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт