Задать вопрос

Therapyx

Therapyx @Therapyx

Data Science

java

Как определить формат кодировки фаила?

(Точнее даже не просто Юникод, а "обновил заголовок вопроса")...
Задача состоит в следующем. Считывая фаил, надо определить его кодировку к примеру ANSI, UTF-8, UTF-8-BOM и еще штуки 3 других. Пока что в голову приходят только такие мысли(поправьте если не прав).
Взять хотябы первую строку фаила, разбить ее по 8 битам, и уже на этой основе проверять дальше.
1) Но вот как?
Пока-что сделал массив байтов из принимаевого фаила в функцию
byte[] bFile = new byte[(int) file.length()];
который вывожу на экран через

System.out.println(Integer.toBinaryString(b & 255 | 256).substring(1));

Возмем к примеру фаил с 1 буквой d - на выводе получаем 01100100, возмем D - на выходе получаем 01100100 (notepad++ определяет формат как ANSI)
Создаю новый фаил - пишу уже рус. Д - на выходе получаю 11010000 10010100
дописываю к Д англ. а = "Да(англ)" на выходе выходит
11010000
10010100
01100001
Notepad++ опрежеляет как UTF-8.
И так же для UTF-8-BOM там уже идет по 4 байта за символ.
2) да вот, символов ведь много разных, это может быть как Турецкие буквы, так и Русские, так и немецкие типа äüö и каждый символ может растягиваться даже на 4+ байта. Как же все таки сделать такую схему, которая бы определяла юникод используемый в фаиле?(без волшебных библиотек, если таковые есть...).
3) Или хотябы если кто знает, как можно разделить вывод 8 битных строк, чтобы хотябы для начала на глаз можно было определить, что эти 4 байта 11010000 10010100 11010000 10010100 это 2 буквы, а не 1 итд, чтобы выходило примерно так
11010000 10010100
11010000 10010100
или так :)
11010000
10010100

11010000
10010100

Вопрос задан более трёх лет назад
550 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Java-разработчик

10 месяцев

Далее
Skillfactory

Профессия Java-разработчик

14 месяцев

Далее
Нетология

Java-разработчик с нуля

12 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

AnnTHony

Антон Федорян @AnnTHony

Интроверт

Сюда загляните
Еще такой алгоритм нашел.

Ответ написан более трёх лет назад

2 комментария

2 комментария

nirvimel @nirvimel

juniversalchardet

Ответ написан более трёх лет назад

1 комментарий

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

+1 ещё

Простой
В чем моя ошибка при deploy maven?
- 1 подписчик
- 26 окт.
- 70 просмотров
1

ответ
Java

Средний
Почему крашится сервер Minecraft Forge?
- 1 подписчик
- 13 окт.
- 114 просмотров
2

ответа
Java

+1 ещё

Простой
Как создать аннотацию, подобную Jakarta @Size?
- 2 подписчика
- 09 окт.
- 129 просмотров
0

ответов
Java

Простой
Почему способ создания String влияет на результат сравнения?
- 2 подписчика
- 27 сент.
- 252 просмотра
3

ответа
Java

+2 ещё

Простой
Какие есть варианты grpc service discovery с минимальным откликом?
- 1 подписчик
- 17 сент.
- 109 просмотров
0

ответов
Java

+1 ещё

Средний
Hibernate: Почему запрос с EntityGraph не работает?
- 1 подписчик
- 10 сент.
- 98 просмотров
0

ответов
Java

+1 ещё

Простой
Java. Трудности в начинании, нормальные ли ошибки в начале?
- 1 подписчик
- 10 сент.
- 364 просмотра
3

ответа
Java

Простой
Как эффективно реализовать балансировку очереди запросов на Java?
- 1 подписчик
- 03 сент.
- 200 просмотров
1

ответ
Java

Простой
Как работает ForkJoinPool.ManagedBlocker?
- 1 подписчик
- 25 авг.
- 117 просмотров
0

ответов
Java

Средний
Я создаю сервер майнкрафт на forge с модами, но возникает проблема, с чем это может быть связано и как это решить?
- 3 подписчика
- 12 авг.
- 2803 просмотра
3

ответа
Показать ещё Загружается…

Automation QA Engineer (Java)

ITK academy • Москва

от 90 000 ₽

Инженер по ручному тестированию

Hello, Doc!

от 80 000 ₽

QA manual инженер по ручному тестированию (junior/middle)

Prioplan

от 70 000 до 100 000 ₽