Как использовать русские символы из файла в качестве ключа для unordered_map?

Question

GONJY MONJY @GONJY_MONJY

В поисках новых горизонтов

Windows
C++

Как использовать русские символы из файла в качестве ключа для unordered_map?

Доброго времени суток!
Стоит такая задача: посчитать для каждого символа количество его вхождений в файле. Для этого я использую wifstream, дабы получить сам символ, а потом добавляю его в unordered_map, если такого ещё не было. Ну либо инкрементирую количество на единицу.

С английским текстом всё работает отлично, но только не с другими (например, русским и монгольским).

Сам код:

#include <iostream>
#include <fstream>
#include <unordered_map>
#include <Windows.h>

int main(int argc, char* argv[])
{
    SetConsoleOutputCP(65001);

    if (argc == 1) {
        std::cerr << "Error: Alphabet file not specified\n";
        return 1;
    }

    std::unordered_map <wchar_t, int> alphabet;
    std::wifstream alphabet_file(argv[1]);

    if (!alphabet_file) {
        std::cerr << "Error: Alphabet file not found\n";
        return 1;
    }

    if (alphabet_file.is_open()) {
        wchar_t ch;
        while (alphabet_file.get(ch)) {
            if (alphabet.find(ch) != alphabet.end())
                alphabet[ch] = alphabet[ch] + 1;
            else
                alphabet.insert(std::make_pair(ch, 1));
        }
    }

    for (auto i = alphabet.begin(); i != alphabet.end(); i++) {
        if (i->first == '\n')
            std::wcout << "\\n" << ": " << i->second << std::endl;
        else
            std::wcout << i->first << ": " << i->second << std::endl;
    }

    alphabet_file.close();

    return 0;
}

Вот как программа читает английский файл:

А вот как русский файл:

Вот какой первый символ хранит в себе unordered_map, хотя должен был хранить символ русской буквы "З".

Все текста сохранены в обчном файле с форматом .txt в UTF-8. Пробовал менять на UTF-16, но и это не помогло. Вообще нет представления о том, как это починить :(

Вопрос задан более двух лет назад
994 просмотра

Комментировать

Подписаться 3 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Инженер по автоматизации

13 месяцев

Далее
Merion Academy

Администрирование MS Windows Server

1 месяц

Далее
Stepik

Zabbix 6. Мониторинг IT инфраструктуры предприятия

2 месяца

Далее

Пригласить эксперта

Ответы на вопрос 3

9 комментариев

GONJY MONJY @GONJY_MONJY Автор вопроса

Пробовал уже, только в этом случае программа даже не выводит все символы

Написано более двух лет назад
Сергей Соловьев @AshBlade

GONJY MONJY, тут скорее проблема с кодировкой самого windows и visual studio - надо в настройках поменять на utf-8

Написано более двух лет назад
GONJY MONJY @GONJY_MONJY Автор вопроса

Плюс я в описании указал, что программа должна читать не только русский, но и, допустим, монгольский

Написано более двух лет назад
GONJY MONJY @GONJY_MONJY Автор вопроса

Сергей Соловьев, У меня в настройках региона стоит использвоание unicode. Я и включал, и выключал его - никакого результата.
Если вы имеете ввиду настройки в Visual Studio, то я что-то несильно понимаю что вы имеете ввиду
Я также пытался компилить и через clang++ на windows, ну и на Linux через g++ (не знаю зачем, просто хотел убедиться...)

Написано более двух лет назад
Сергей Соловьев @AshBlade

GONJY MONJY, проблема не в коде - а в представлении. текст выводится в какой-то кодировке - надо просто "синхронизировать" кодировку кода и платформы/vs/консоли

Написано более двух лет назад
GONJY MONJY @GONJY_MONJY Автор вопроса

Честно, даже не очень понимаю как всё это сделать

Написано более двух лет назад
Adamos @Adamos

GONJY MONJY, есть один классный способ: берешь Форточки и выкидываешь в форточку.
В Линуксах везде нормальный уникод, без копролитных CP866 в консоли, внутреннего представления строк системы (UTF16LE, если не ошибаюсь) и соответствующего результата, когда вы пытаетесь вывести их в UTF8.

Написано более двух лет назад
GONJY MONJY @GONJY_MONJY Автор вопроса

Adamos, я пытался сделать это не на windows
Я менял и на просто char и cout, и оставлял wchar_t и wcout
Один и тот же результат(
Похоже я вас не до конца понимаю что и как конкретно надо запустить на Linux, чтобы всё работало

Написано более двух лет назад
Adamos @Adamos

GONJY MONJY, на Лине достаточно сконвертировать файл в UTF-8, читать его в UTF-8, получая int значения символов, использовать их как ключи и потом вывести символы UTF-8, соответствующие этим значениям.
Правда, с wifstream я никогда не работал, как это сделать им - не подскажу. Я бы читал голый поток и разбирал его любой библиотекой, работающей с UTF. Отдельной, которая находится за пару минут, или тем, в чем пишу программы обычно (у меня это wxWidgets).

Написано более двух лет назад

4 комментария

GONJY MONJY @GONJY_MONJY Автор вопроса

Dmitrii,
1. Может вы подскажете какую локаль надо использовать?
setlocale(LC_ALL, ".UTF-8")
Я пробовал и utf-16, и ru, и Russian. Ничего не помогло.
Также всё это провернул при замене ключа с wchar_t на wstring

Написано более двух лет назад
GONJY MONJY @GONJY_MONJY Автор вопроса

И так ли сильно нужна эта либа, которую вы указали? Мне не надо итерироваться по строке. Мне ведь надо получать каждый символ и считать его количество вхождений в файл

Написано более двух лет назад

Александр Ананьев @SaNNy32

GONJY MONJY,

#include <iostream>
#include <unordered_map>
#include <cwchar>
#include <locale>
#include <io.h>
#include <fcntl.h>

int main() {
    constexpr char cp_utf16le[] = ".1200";
    setlocale(LC_ALL, cp_utf16le);
    _setmode(_fileno(stdout), _O_WTEXT);

    std::wstring key1 = L"бла_бла";
    std::unordered_map<std::wstring, int> mp;

    mp[L"бла_бла"] = 42;
    std::wcout << key1 << L" - " << mp[key1];;

    return 0;
}

Написано более двух лет назад

Александр Прилепский @alex1951

Сделайте так:

setlocale(LC_ALL, "ru-RU.UTF8");

    if (argc == 1) {
        std::cerr << "Error: Alphabet file not specified\n";
        return 1;
    }

    std::unordered_map <wchar_t, int> alphabet;
    std::wifstream alphabet_file(argv[1]);

    if (!alphabet_file) {
        std::cerr << "Error: Alphabet file not found\n";
        return 1;
    }
    alphabet_file.imbue(std::locale("ru-RU.UTF8"));

Дальше по Вашему коду. И все будет норм(если, конечно, и код и входной файл в кодировке UTF-8.

Написано более двух лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

Простой
Как сделать скриншот второго монитора на С++?
- 1 подписчик
- 14 июл.
- 115 просмотров
4

ответа
Windows

+1 ещё

Средний
Редирект на библиотеку jquery через windows host.как?
- 1 подписчик
- 13 июл.
- 87 просмотров
3

ответа
Windows

+1 ещё

Простой
Как в windows повесить две службы на один порт? Или как заменить порт в зависимости от источника?
- 3 подписчика
- 08 июл.
- 566 просмотров
4

ответа
C++

Простой
Возможно ли сделать скрин действующего окна через Alt + PrtSc на С++?
- 1 подписчик
- 08 июл.
- 136 просмотров
2

ответа
C++

Простой
Как можно через ООП сериализировать в разные форматы в едином стиле?
- 2 подписчика
- 07 июл.
- 92 просмотра
3

ответа
C++

+1 ещё

Простой
Почему компилятор подчёркивает импортируемый класс как ошибку «индификатор не определён»?
- 1 подписчик
- 04 июл.
- 114 просмотров
2

ответа
Windows

Простой
Как решить проблему загрузки винды?
- 2 подписчика
- 27 июн.
- 575 просмотров
2

ответа
C++

Сложный
Концепт проверки совместимости с шаблонным конструктором?
- 1 подписчик
- 25 июн.
- 102 просмотра
1

ответ
Windows

+2 ещё

Простой
Куда смотреть для диагностики проблемы?
- 1 подписчик
- 23 июн.
- 338 просмотров
1

ответ
C++

Простой
Я единственный у кого cppreference.com через раз падает с ERR_TIMED_OUT?
- 1 подписчик
- 21 июн.
- 191 просмотр
2

ответа
Показать ещё Загружается…

Answer 1 · 2024-02-19 16:11:53

Сергей Соловьев @AshBlade

Просто хочу быть счастливым

Попробуй указать локаль - setlocale(LC_ALL, "Russian");

Ответ написан более двух лет назад

9 комментариев

Answer 2 · 2024-02-19 16:34:47

Используйте std::wstring в качестве ключа.
https://godbolt.org/z/sfTq4nPhj

#include <iostream>
#include <unordered_map>
#include <cwchar>

int main() {
    // Define a wide character string
    std::wstring key1 = L"бла_бла";
    std::unordered_map<std::wstring, int> mp;
    
    mp[L"бла_бла"] = 42;
    std::cout << mp[key1];

    return 0;
}

Для вывода в консоль установите локаль + либу, чтобы нормально итерироваться по строке. Например, вот либа для UTF-8 https://github.com/nemtrif/utfcpp

Answer 3 · 2024-02-29 20:54:51

Сделайте так:

setlocale(LC_ALL, "ru-RU.UTF8");

    if (argc == 1) {
        std::cerr << "Error: Alphabet file not specified\n";
        return 1;
    }

    std::unordered_map <wchar_t, int> alphabet;
    std::wifstream alphabet_file(argv[1]);

    if (!alphabet_file) {
        std::cerr << "Error: Alphabet file not found\n";
        return 1;
    }
    alphabet_file.imbue(std::locale("ru-RU.UTF8"));

дальше Ваш код. И все будет норм( если, конечно, и файл .cpp и входной файл в кодировке UTF-8)

Как использовать русские символы из файла в качестве ключа для unordered_map?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт