Как получить кодировку сайта?

Question

DmitryPros @DmitryPros

Как получить кодировку сайта?

BufferedReader body = new BufferedReader(new InputStreamReader(con.getInputStream(), "utf-8");
String tempLine, outString = "";
while ((tempLine = body.readLine()) != null)
     outString += tempLine + " ";
body.close();
return outString;

По умолчанию читаю поток в кодировке utf-8, но могут попасться сайты с другой кодировкой, как ее определить, если ее название не возвращается в Headers?

Пробовал писать отдельный метод и читать первую строку, извлекать название кодировки из тела документа, но в таком случае body.readLine() выводит текст не со второй строки, а из середины документа, на картинке видно, что tempLine берет инфу явно не из следующей строки:

Вопрос задан более трёх лет назад
190 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Java-разработчик с нуля

12 месяцев

Далее
Академия Эдюсон

Java-разработчик + ИИ

8 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

DmitryPros @DmitryPros Автор вопроса

как ее определить, если ее название не возвращается в Headers?

Написано более трёх лет назад
AStek @AStek

DmitryPros: А что ты используешь для коннекта? Я не узнаю библиотеку.

Написано более трёх лет назад
Labunsky @Labunsky

AStek: это стандартная библиотека JDK :)

Написано более трёх лет назад
AStek @AStek

Labunsky: печаль, я всегда apache httpclient использовал. Там обычно с этим нет проблем.

Написано более трёх лет назад
Labunsky @Labunsky

AStek: для получения хтумль-страничек использовать библиотеки - жуткий оверхед, там нативного кода на пять строк

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

+1 ещё

Простой
В Терминал С++ выводятся неизвестные символы?
- 1 подписчик
- 05 июн.
- 185 просмотров
3

ответа
Кодировка символов

Простой
Почему нет кодировки ISO/IEC 8859-16 на компьютере?
- 1 подписчик
- 22 мая
- 82 просмотра
1

ответ
Java

Простой
Почему не запускается Flyway?
- 1 подписчик
- 12 мая
- 175 просмотров
2

ответа
Java

Простой
Можно ли сделать «псевдоним» для пакета?
- 3 подписчика
- 06 мая
- 236 просмотров
1

ответ
Java

Простой
Возможно ли добавлять методы в пакет чужой библиотеки?
- 1 подписчик
- 05 мая
- 189 просмотров
2

ответа
Java

+2 ещё

Сложный
Как гарантировано закрыть сокет через ServerSocket?
- 2 подписчика
- 30 апр.
- 178 просмотров
1

ответ
Java

Средний
Как получать ввод с конкретной клавиатуры и мышки, если их несколько?
- 2 подписчика
- 29 апр.
- 158 просмотров
1

ответ
Браузеры

+1 ещё

Простой
Как вернуть кодировку страниц?
- 1 подписчик
- 09 апр.
- 217 просмотров
2

ответа
Java

Простой
Как переделать этот SQL запрос на java?
- 1 подписчик
- 13 мар.
- 339 просмотров
1

ответ
Java

+1 ещё

Простой
Почему не запускается собранный в .jar файл Java FX проект?
- 1 подписчик
- 26 февр.
- 223 просмотра
2

ответа
Показать ещё Загружается…

Answer 1 · 2017-08-17 22:26:06

В тот момент, когда ты получаешь строку, она уже в любом случае хранится в джавовской UTF-16. Именно поэтому кодировка указывается для ридера до начала чтения.
С уже считанной строкой, если она была прочитана не в той кодировке и "испорчена", а кодировка все неизвестна, ничего сделать нельзя.
Для того, чтобы определить кодировку исходников сайта, который выгружаешь, нужно сначала получить его не в строковом виде, а массивом байт. После этого, можно работать с ним и уже определять кодировку либо с помощью своих костылей, либо уже существующих чужих.

Answer 2 · 2017-08-17 22:26:52

AStek @AStek

Из заголовка ответа (responce header-a).

Ответ написан более трёх лет назад

5 комментариев

Как получить кодировку сайта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт