Как определить кодировку id3-тега?

Question

deadvip @deadvip

Как определить кодировку id3-тега?

Имеется два mp3 файла для теста с тегами в Latin1, UTF-8 соответственно. Пытаюсь считать их:

System.out.println(id3v2Tag.getAlbum());

Вывод:

?????????? ????????: ???????? ?? ??? ???????
Эльфийская Рукопись: Сказание На Все Времена

Считываю так:

System.out.println(new String(id3v2Tag.getAlbum().getBytes("Latin1")));

Вывод:

Эльфийская Рукопись: Сказание На Все Времена
?????????? ????????: ???????? ?? ??? ???????

В эксплорере windows и плеерах оба тега выводятся нормально. Как они определяют кодировку?

И еще вопрос — почему вместо кракозяб выводятся знаки вопроса? Как jvm определяет что вывод некорректен и следует его заменить на знаки вопроса? Можно ли определить это в коде?

UPD: Действительно, первый файл был в cp1251, но тогда непонятно почему код:

System.out.println(new String(id3v2Tag.getAlbum().getBytes("Latin1")));

работает ок. Наверное, косяки в библиотеке, которую я юзаю для считывания тегов.

Вопрос задан более трёх лет назад
6092 просмотра

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

2 комментария

yupic @yupic

Ещё вариант: библиотека умеет отличать однобайтовую кодировку от UTF-8. Если теги в UTF-8, то библиотека читает их нормально. Если в windows-1251, то читает как Latin1. Если сделать такое предположение то вот что получается:
1. System.out.println(id3v2Tag.getAlbum());
В этом варианте, UTF-8 тег считался нормально, а 1251 считался как Latin1. При выводе, строки преобразуются в windows-1251. Поэтому 1-й тег преобразовался в ?, так как символам из Latin1 не нашлось подходящих в windows-1251. А 2-й тег преобразовался нормально, так как использовалась правильная кодировка.

2. System.out.println(new String(id3v2Tag.getAlbum().getBytes(«Latin1»)));
Почему корректно вывелся тег из 1-го файла описывал выше. Со вторым вышли ?, так как была сделана попытка преобразовать русские буквы в Latin1, а им нет соответствия в этой кодировке, поэтому все русские буквы заменились на ?, а пробел и двоеточие нет.

3. По идее, System.out.println(new String(id3v2Tag.getAlbum().getBytes(«cp1251»)) должно нормально сработать для 2-го файла, а с 1-м выдаются ?, так как символам вроде "Õ" нет подходящих символов в 1251.

Написано более трёх лет назад
deadvip @deadvip Автор вопроса

Все так и есть. Большое спасибо за развернутый ответ.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 3

Комментировать

1 комментарий

deadvip @deadvip Автор вопроса
Действительно, в latin1 нет кириллических символов. Ну тогда я окончательно запутался — в первом треке менял тег через эксплорер windows (т.е. думаю что пишется в cp1251), но код:

System.out.println(new String(id3v2Tag.getAlbum().getBytes("cp1251"))

выдает знаки вопроса, а если поменять на Latin1 — ок.
Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- 19 часов назад
- 86 просмотров
2

ответа
Программирование

+4 ещё

Простой
На сколько плох мой GitHub?
- 1 подписчик
- 03 июл.
- 1070 просмотров
2

ответа
Программирование

+2 ещё

Средний
Поможете собрать компьютер для запуска виртуальных машин и коддинга?
- 1 подписчик
- 02 июл.
- 640 просмотров
5

ответов
Программирование

+4 ещё

Сложный
Что делать, на QEMU всё летает, а реальный Celeron D умирает?
- 2 подписчика
- 01 июл.
- 743 просмотра
1

ответ
Программирование

+4 ещё

Простой
Выбор между изучением c++ и Golang, что изучать?
- 3 подписчика
- 09 июн.
- 1458 просмотров
10

ответов
C++

+1 ещё

Простой
В Терминал С++ выводятся неизвестные символы?
- 1 подписчик
- 05 июн.
- 190 просмотров
3

ответа
Программирование

Простой
Как создать и использовать свою кодировку знаков?
- 1 подписчик
- 02 июн.
- 735 просмотров
4

ответа
Кодировка символов

Простой
Почему нет кодировки ISO/IEC 8859-16 на компьютере?
- 1 подписчик
- 22 мая
- 85 просмотров
1

ответ
Программирование

+1 ещё

Простой
Проект для программирования?
- 2 подписчика
- 27 апр.
- 886 просмотров
9

ответов
Программирование

Простой
Олимпиадное программирование — с чего начать?
- 1 подписчик
- 18 апр.
- 607 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2012-09-15 16:11:30

Поясню почему работает System.out.println(new String(id3v2Tag.getAlbum().getBytes(«Latin1»))).

Как я понимаю, вы используете некую библиотеку, которая умеет читать id3-теги.
Эта библиотека из файла читает сырой массив байт. Ей надо преобразовать байты в строку, для этого надо воспользоваться какой-то кодировкой. В идеале, эту кодировку надо бы задавать в настройках библиотеки. Но если кодировка не задана, то, видимо, используется Latin1.
Так вот, библиотека преобразует байты в строку с помощью Latin1. Происходит это так, берётся некий байт, ему ставится в соответствие некий символ и он сохраняется в строке. Например, считали байт, представляющий букву «А» в кодировке windows-1251, а в Latin1, этому байту будет сопоставлен какой-нибудь "Õ". Если вы преобразуете такую строку в массив байт, используя UTF-8 и запишете байты в файл, то при просмотре файла в UTF-8 вы не увидите русских букв.
Далее, вы хотите распечатать строку, для этого вы преобразуете её в байты используя Latin1. Символу "Õ" сопоставляется байт, который в windows-1251 представляет букву «А». Потом из этих байт опять создаётся строка, при этом используется системная кодировка по умолчанию — windows-1251. В результате, из байта получается символ «А», как и было задумано, и эта строка корректно выводится на экран.

Как поступить: в 1-м комменте дали ссылку на нужную вам библиотеку. Вам надо получать теги в виде массива байт, и преобразовывать их в строки, используя определённую juniversalchardet кодировку. Если библиотека для работы с MP3 не позволяет получить теги в виде массивов байт, то преобразовывать возвращаемые ей значения в байты используя Latin1, а лишь потом определять кодировку и создавать строки.

Answer 2 · 2012-09-15 14:17:41

S1ashka @S1ashka

code.google.com/p/juniversalchardet/

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2012-09-15 14:45:32

Что-то вы путаете. В кодировке latin1 нет кириллических символов. Скорее всего там cp1251.
Знаки вопроса выводятся вместо непечатных символов, которые могут иметь специальное значение и нарушить нормальную работу терминала. Безопаснее вывести знаки вопроса, тем более что смысла в бинарных крякозябрах вы много не увидите.

В эксплорере windows и плеерах оба тега выводятся нормально. Как они определяют кодировку?

С помощью магии. Анализируют ичпользуемые символы, частоты их появления, устойчивые комбинации символов. Самые продвинутые плееры просто считают, что теги в UTF-8, а все, кто хранят их в другой кодировке глубоко неправы. Лучше всего пользоваться как раз такими плеерами. Проблем меньше будет.

Answer 4 · 2012-09-15 15:52:03

Наверное getBytes(«latin1») просто ничего не перекодирует, поэтому оно отображается в нативной windows кодировке.

Отличить ut8 от win1251 можно наверное без всякой магии. Русская буква в 1251 не будет являтся валидным utf8 символом. А вот отличить однобайтовые кодировки — нужен частотный анализ.

Как определить кодировку id3-тега?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт