Как автоматически определить что текст в неверной кодировке?

Question

Довольный Айтишникъ @borisdenis

Ленив и вреден...

C#

Как автоматически определить что текст в неверной кодировке?

Имеется база данных в которую пишет данные сторонняя программа, поставлена задача брать из нее данные для отчетов. В общем все написано и работает кроме одного неудобного момента, в таблице периодически сохраняется текст в неверной кодировке, тоесть выглядит он то так Microsoft PowerPoint - Презентация ремонты то вот так

Р—Р°РєСѓРїРєР° РЅРѕСЏР±СЂСЊ СЂР°СЃС…РѕРґРЅРёРєРё.docx

и лечится обычным перекодированием из 1251 в utf.
Вопорос, как автоматически определять что текст сохранен неверно кроме как проверять в нем наличие символов °ЂЃ? Может есть другой, более грамотный способ?

Вопрос задан более трёх лет назад
240 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

OTUS

C# Developer. Professional

6 месяцев

Далее
Ulearn.me

Основы программирования на примере C#. Часть 1

1 неделя

Далее
Software-testing.ru

Программирование на C# для тестировщиков

10 недель

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

7 комментариев

Довольный Айтишникъ @borisdenis Автор вопроса

Это если текст в файле, а тут текст в базе и отдается sql запросом, а там встречаются вот такие "корявые" записи.

Написано более трёх лет назад
# @mindtester Куратор тега C#

Довольный Жизнью,
Это если текст в файле, а тут текст в базе
в чем разница? читать из файла или из базы - это источник текста. но работать же вы будете со строкой в памяти, не так ли?

сам процесс выяснения битости кодировки не зависит от источника текста

другой вопрос - может можно где то причины ошибки и устранить их. но это видимо на стыке базы и сторонней программы

Написано более трёх лет назад
Довольный Айтишникъ @borisdenis Автор вопроса

#, ну вот отправили вы запрос и в ответ вам пришла строка Р—Р°РєСѓРїРєР° РЅРѕСЏР±СЂСЊ СЂР°СЃС…РѕРґРЅРёРєРё как определить что она в неверной кодировке? Сейчас я ищу в ней наличие одного из символов °ЂЃ и если нахожу то переконвертирую, но мне кажется это костыль, поэтому и задал вопрос.

Написано более трёх лет назад
# @mindtester Куратор тега C#

Довольный Жизнью, а если бы была библиотечная функция? не костыль?
вынесите в библиотеку! и будет красиво ;)))
..особенно если оформить как метод-расширение для string

Написано более трёх лет назад
# @mindtester Куратор тега C#

Довольный Жизнью, суть то проблемы не меняется. другой вопрос, раз уж вы знаете что вариантов ошибки мало, то у вас и решение относительно компактное. метод с претензией на универсальный (достойный помещения в библиотеку) будет иметь существенно более сложный анализ наиболее вероятной ошибки кодировки. просто спрячет его "под капот"

Написано более трёх лет назад
d-stream @d-stream

#, для string нехорошо - ибо они Unicode в С# так что тащить надо byte[] в том или ином виде... что может потребовать слегка пройтись ершиком по уровню доступа к базе.

Написано более трёх лет назад
# @mindtester Куратор тега C#

d-stream, подозреваю что Довольный Жизнью на самом деле вполне себе решил проблему, просто надеется на существование некоей правильной библиотечной функции на тему определения кодировки

а таковой функции:
1 - нет. по тому что задача сильно зависимая от контекста и не однозначная
2 - да и не нужна, с учетом малого спектра вариаций в данном контексте

но тогда нет и костыльности. и возможно не так все страшно со строками (сам не пробовал)

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

+1 ещё

Простой
Как создать копию предмета и добавить ему компонент?
- 1 подписчик
- 08 нояб.
- 105 просмотров
1

ответ
C#

+1 ещё

Простой
Как сделать постраничную навигацию в Avalonia UI MVVM?
- 2 подписчика
- 08 нояб.
- 77 просмотров
0

ответов
C#

Простой
Почему одинаковые делегаты работают по разному, В 10 Раз разница в скорости?
- 1 подписчик
- 27 окт.
- 261 просмотр
0

ответов
C#

+1 ещё

Простой
Почему не работает обратная привязка в Avalonia UI?
- 1 подписчик
- 22 окт.
- 129 просмотров
1

ответ
C#

+1 ещё

Средний
При каких входных данных моя программа работает неверно и как мне научиться самому это понимать? Как научиться искать ошибки?
- 2 подписчика
- 20 окт.
- 347 просмотров
3

ответа
C#

+2 ещё

Простой
Как универсализировать обычный ViewList в WPF C# XAML?
- 1 подписчик
- 20 окт.
- 84 просмотра
2

ответа
C#

+1 ещё

Простой
Как проверить, наследует ли объект в обобщённом методе?
- 1 подписчик
- 16 окт.
- 109 просмотров
1

ответ
C#

+1 ещё

Средний
Пермач после авторизации [WTelegram,TDLib] как исправить?
- 1 подписчик
- 10 окт.
- 312 просмотров
0

ответов
C#

+1 ещё

Простой
Как в VSCode для C#-кода сгенерировать или посмотреть только структуру?
- 1 подписчик
- 01 окт.
- 140 просмотров
1

ответ
C#

+1 ещё

Простой
Почему VSCode панель Outline view не показывает классы и функции из C# кода?
- 1 подписчик
- 01 окт.
- 143 просмотра
1

ответ
Показать ещё Загружается…

QA automation (C#)

Альфа-Банк • Москва

от 200 000 до 350 000 ₽

QA Automation Engineer (C#)

Centicore Group • Москва

До 300 000 ₽

Специалист по анализу сетевого трафика

РСТ Энерджи • Санкт-Петербург

от 50 000 ₽

Answer 1 · 2018-11-15 03:30:13

Ivan Arxont @arxont

C# программист

https://www.codeproject.com/Articles/17201/Detect-...

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2018-11-14 12:28:48

Например можно подсмотреть реализацию автодетекта кодировок в far manager. Ну или погуглить подобное. Обычно хранят статистически характерные коды символов - начинают читать файл до более-менее однозначного получения статистики и предполагают кодировку. far определяет кодировку достаточно успешно в большинстве случаев.

ну или когда есть некие хинты типа начинается файл с русского текста - то можно тупо считать количество попадающих в список русских букв символов в нескольких вариантах перекодирования)

Как автоматически определить что текст в неверной кодировке?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт