Как перевести текст из заранее неизвестной кодировки в UTF-8?

Question

JustJoe_066 @JustJoe_066

C#

Как перевести текст из заранее неизвестной кодировки в UTF-8?

Допустим прочитали файл, в котором кодировка заранее не определена (потому конкретно прописать Encoding(.. имя кодировки ..) не получится), так вот, существует ли способ, как каждый такой текст переводить строго в UTF-8?

Например подход из этого ответа явно не подойдёт https://ru.stackoverflow.com/questions/1334450/c-%...

Вопрос задан более года назад
135 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Разработчик игр на Unity

13 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unity: тариф Базовый

6 месяцев

Далее
Stepik

PRO C#. Профессия "Backend разработчик"

4 месяца

Далее

Решения вопроса 3

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

+2 ещё

Простой
Как заставить кнопки в ScrollView корректно перераспределять остальные элементы при анимации?
- 1 подписчик
- 10 апр.
- 70 просмотров
1

ответ
C#

Простой
Как прочесть без блокировок в многопоточном приложение 16 байт структурное значение?
- 1 подписчик
- 30 мар.
- 153 просмотра
1

ответ
C#

+1 ещё

Средний
Как убрать проблему, из-за которой карта не возвращается в руку?
- 1 подписчик
- 18 мар.
- 259 просмотров
1

ответ
C#

Средний
Как скачать видео из MAX с параметрами C# GET?
- 1 подписчик
- 14 мар.
- 333 просмотра
0

ответов
C#

+1 ещё

Простой
Как переопределить стиль WPF-компонентов из подключенной библиотеки?
- 1 подписчик
- 02 мар.
- 104 просмотра
1

ответ
C#

Средний
Как в JsonSerializer.Deserialize игнорировать ошибки десериализации битого json?
- 3 подписчика
- 29 янв.
- 256 просмотров
1

ответ
C#

+1 ещё

Простой
Проблемы с VSIX приложением — как заставить работать?
- 3 подписчика
- 25 янв.
- 262 просмотра
1

ответ
C#

+1 ещё

Простой
Как делать провода в юнити без лишних выпендриваний?
- 1 подписчик
- 24 янв.
- 343 просмотра
2

ответа
C#

+1 ещё

Простой
Почему ругается на команду Exit в CommandBinding?
- 2 подписчика
- 18 янв.
- 155 просмотров
1

ответ
C#

+1 ещё

Простой
Как подключить БД Supabase к .Net проекту?
- 1 подписчик
- 09 янв.
- 168 просмотров
1

ответ
Показать ещё Загружается…

C# Developer (WinForms + SQL)

Ляпунов и Резниченко • Санкт-Петербург

от 350 000 ₽

Системный аналитик

Synapse AI • Москва

от 130 000 ₽

Программист Backend PHP на yii2 (Middle)

Модимио • Иваново

от 70 000 до 90 000 ₽

https://www.freedesktop.org/wiki/Software/uchardet/ там есть ссылки и на варианты для C#

Answer 1 · 2024-12-01 21:50:11

Кодировку можно определить аналитически по содержимому, метод не 100%. Можно взять готовую утилиту командной строки enca, она умеет большое количество кодировок и языков, в т.ч. дважды перекодированные (например взяли dos 866 кодировку, открыли в cp1251, и сохранили в utf8, по крайней мере такие финты при копировании текста с коряво настроенных веб сайтов, работали).

Answer 2 · 2024-12-01 21:56:22

Кодировок очень много всяких и в идеале надо для каждой кодировки писать свой код детектирования. Проще собрать словари слов для всех кодировок и прогонять текст через все кодировки и анализировать результат. И вот в той, в которой больше всего получилось слов из словаря - та, возможно, и есть нужная.

Answer 3 · 2024-12-02 08:34:50

Если текст написан символами только из 7-битного диапазона (классический английский текст), то кодировку вы не определите. Он будет нормально читаться в любой кодировке. Вам все равно придется выбирать ту кодировку, свойственную текущему программному окружению.

Как перевести текст из заранее неизвестной кодировки в UTF-8?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт