Ответы пользователя Владимир Дубровин по тегу «Кодировка символов»

Какая это кодировка и что тут написано?

Владимир Дубровин @z3apa3a

Это C-стринг с символами Windows-1251 в восьмиричной записи

~ % cat test.c
#include <stdio.h>

int main(){
 printf("\335\362\356\362 \365\356\361\362 \355\345\350\347\342\345\361\362\345\355");
 return 0;
}
 ~ % gcc -o test test.c
 ~ % ./test > res                       
 ~ % iconv -f Windows-1251 -t UTF-8 res 
Этот хост неизвестен%

Ответ написан более двух лет назад

1 комментарий

Почему ascii и utf-8 тексты имеют разную длину?

Владимир Дубровин @z3apa3a

В UTF-8 символы соответствующие ASCII кодируются одним октетом, но символы других кодовых страниц - различным количеством октет (от 2 до 4х в настоящее время), например кириллические символы или символы специфичные для европейских языков - 2мя октетами.

В ANSI-кодировках символы всегда кодируются одним октетом, и ANSI-кодировка может содержать не только ASCII-символы.

Ответ написан более трёх лет назад

Комментировать

Как фильтровать письма, закодированные в ХЗ что?

Владимир Дубровин @z3apa3a

Переведите текст, который хотите фильтровать, в кодировку windows-1251 и закодируйте в quoted-printable - по полученной строке ваш фильтр сработает. Проще всего просто скопировать соответствующую уже кодированную строку из исходника письма.

Ответ написан более трёх лет назад

Комментировать

Почему символ "я" передаётся дубляжом в кодировке CP-1251 на Linux?

Владимир Дубровин @z3apa3a

в протоколе telnet код 255 (соответствующий 'я' в Windows-1251) является управляющим, поэтому при необходимости передать символ с кодом 255 он передается два раза. Это же касается протокола FTP, т.к. исторически он являтся расширением telnet.

Можно использовать binary-режим в telnet, или использовать nc вместо telnet, но я бы настоятельно рекомендовал использовать для отправки писем что-то специальное, например swaks.

Ответ написан более трёх лет назад

Комментировать

Что это за формат текстового файла с тэгами, начинающимися на @?

Владимир Дубровин @z3apa3a

https://ru.wikipedia.org/wiki/Texinfo

Ответ написан более трёх лет назад

1 комментарий

Как исправить такую ошибочку?

Владимир Дубровин @z3apa3a

8-битные символы в URI необходимо кодировать (encodeURI)

Ответ написан более трёх лет назад

Комментировать

Как поменять кодировку с iso-8859-1 на windows-1251?

Владимир Дубровин @z3apa3a

В кодировке iso-8859-1 не может быть кириллических символов, поэтому перекодировать из нее в windows-1251 не возможно. Приведите где-нибудь пример того, что вы видите.

Ответ написан более трёх лет назад

3 комментария

Для чего используется - "koi8-r"?

Владимир Дубровин @z3apa3a

KOI8-R это 8-битная расширенная ASCII кодировка, использующаяся со времен СССР, на нее был ГОСТ 19768-74.
Основная особенность в том, что при откидывании старшего бита остается латинский символ, с соответствующим звучанием в инверсированном регистра, т.е.
a - A
б - B
ц - C
д - D
и т.д. Это позволяло при выводе 8-битного текста на семибитные нерусифицированные терминалы его читать, т.к. старший бит в них или не использовался, или использовался под признак инверсии или мерцания символа.
Так же получила распространение в электронной почте еще до появления стандарта MIME, к чему руку приложил достаточно известный во времена раннего интернета тов. Чернов из Релкома, она даже была стандартизована как RFC 1489. Сейчас используется все реже.

Ответ написан более трёх лет назад

Комментировать

Почему английский символ X отображает на сайте буквой Ч русской?

Владимир Дубровин @z3apa3a

Видимо, AGOpus не является Unicode-шрифтом, поэтому символ × (код 215) показывается в OEM-кодировке как русская Ч.

Ответ написан более трёх лет назад

Комментировать

Есть ли стандарт, регламентирующий кодировние subject-а в письмах?

Владимир Дубровин @z3apa3a

Да, есть. По базовым стандартам (RFC 2822 / RFC 5322) заголовки письма не могут содержать символов отличных от ASCII.

Есть расширение SMTPUTF8 (RFC 6531 / RFC 6532) которое позволяет слать заголовки в кодировке UTF-8 без MIME-кодирования в случае, если ваш сервер анонсирует SMTPUTF8 в ответе на команду EHLO.

Во всех других случаях, включая приведенный вами, использование восьмибитных символов в заголовках является нарушением действующих стандартов.

Ответ написан более трёх лет назад

1 комментарий

Почему неверно указана кодировка письма?

Владимир Дубровин @z3apa3a

У текстовой и HTML-части должен быть указан Content-Type с соответствующей кодировкой, например
Content-Type: text/html; charset="windows-1251"
скорей всего, у вас кодировка текста (windows-1251) не соответствует кодировке указанной в заголовке соответствующей части.

Ответ написан более трёх лет назад

Комментировать

Иврит - это utf-8 или utf-16?

Владимир Дубровин @z3apa3a

Юникод-кодировки UTF-8 и UTF-16 обе содержат в том числе и символы иврита.

Ответ написан более трёх лет назад

2 комментария

Как правильно угадать кодировку символов в файле?

Владимир Дубровин @z3apa3a

Для кириллицы можно примерно такой алгоритм:

1. Задетектить UTF-16
обычно в начале текста присутствует Unicode-признак порядка U+FEFF, по нему можно отличить big endian / little endian.

Если признака нет, но в четных позициях текста (начиная с нуля) в основном символы с кодом 0x00 (для латиницы) и 0x04 (для кириллицы) - то это UTF-16 big endian, если в нечетных - little endian.

2. Задетектить UTF-8
все кириллические символы будут состоять из двух октетов, первый октет будет иметь значение 0xd0 или 0xd1, латиница будет совпадать с ASCII

3. Отличить Windows-1251 от KOI8-r - и там и там для кириллицы используют в основном символы с кодом 192-255, но в koi8-r сначала идут маленькие символы, в windows-1251 - сначала большие. Если текст преимущественно состоит из символов 192-223 но в начале предложения (после точки с пробелом) идут символы с кодом 224-255 - это ko8-r, если наоборот - windows-1251 + можно использовать частотный анализ символов. Латиница совпадает с ASCII.

Все остальные кодировки достаточно редки, правда китайцы (и почему-то Google) любят кодировать кириллицу в Big-5.

Ответ написан более трёх лет назад

3 комментария

Что здесь написано(кодировка)?

Владимир Дубровин @z3apa3a

Это не TXT-файл, это PNG.

Ответ написан более трёх лет назад

4 комментария

Как имправить проблему с кодировкой?

Владимир Дубровин @z3apa3a

<meta charset="utf-8">
должно быть

<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

Ответ написан более трёх лет назад

12 комментариев

Войдите на сайт