Почему считает неверное количество символов в строке на кириллице?

Question

maxwellum @maxwellum

JavaScript

Почему считает неверное количество символов в строке на кириллице?

Здравствуйте. Занимаюсь правкой одной CMS, возникла такая проблема: есть функция strLenCalc на javascript для подсчета количества символов в строке, при его превышении автоматически обрубается лишнее. С английскими буквами все работает как надо, но кириллические символы считаются как 3 за 1. Например, в слове Hello 5 символов, а в слове Привет 18 символов.
Вот сама функция и связанные с нею:

function strlen(str) {
	return (BROWSER.ie && str.indexOf('\n') != -1) ? str.replace(/\r?\n/g, '_').length : str.length;
}


function mb_strlen(str) {
	var len = 0;
	for(var i = 0; i < str.length; i++) {
		len += str.charCodeAt(i) < 0 || str.charCodeAt(i) > 255 ? (charset == 'utf-8' ? 3 : 2) : 1;
	}
	return len;
}

function mb_cutstr(str, maxlen, dot) {
	var len = 0;
	var ret = '';
	var dot = !dot ? '...' : dot;
	maxlen = maxlen - dot.length;
	for(var i = 0; i < str.length; i++) {
		len += str.charCodeAt(i) < 0 || str.charCodeAt(i) > 255 ? (charset == 'utf-8' ? 3 : 2) : 1;
		if(len > maxlen) {
			ret += dot;
			break;
		}
		ret += str.substr(i, 1);
	}
	return ret;
}

function strLenCalc(obj, checklen, maxlen) {
	var v = obj.value, charlen = 0, maxlen = !maxlen ? 200 : maxlen, curlen = maxlen, len = strlen(v);
	for(var i = 0; i < v.length; i++) {
		if(v.charCodeAt(i) < 0 || v.charCodeAt(i) > 255) {
			curlen -= charset == 'utf-8' ? 2 : 1;
		}
	}
	if(curlen >= len) {
		$(checklen).innerHTML = curlen - len;
	} else {
		obj.value = mb_cutstr(v, maxlen, 0);
	}
}

Вопрос задан более трёх лет назад
169 просмотров

5 комментариев

Подписаться 1 Средний 5 комментариев

alexalexes @alexalexes

С какой кодировкой хотите совладать, и чем вам:
console.log('Привет'.length);
не угодил?

Написано более трёх лет назад
maxwellum @maxwellum Автор вопроса

alexalexes, с utf-8.

Написано более трёх лет назад
alexalexes @alexalexes

А, вам в байтах нужно, а не в символах.
Тогда так.
console.log(new Blob(["Привет"]).size);
Если не нужно старые браузеры поддерживать, то этого хватит.
Если у вас корпоративный софт, который требует IE8+ поддержку, то могу посочувствовать.

Написано более трёх лет назад
Lynn «Кофеман» @Lynn
Это кто вам такой ахтунг написал?

new TextEncoder().encode('Привет').length // 12
Написано более трёх лет назад
Lynn «Кофеман» @Lynn
Или так

function mb_strlen(str) { return encodeURIComponent(str).replace(/%../g, '.').length; }
Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Академия Эдюсон

Fullstack-разработчик на JavaScript + ИИ

11 месяцев

Далее
ProductStar × РБК

Профессия: Инженер по тестированию + ИИ

6 месяцев

Далее

Решения вопроса 1

5 комментариев

Lynn «Кофеман» @Lynn

С какого перепугу у русских букв три байта? Всю жизнь два было. Почитайте про кодировку utf-8

Написано более трёх лет назад
Олег @402d

Lynn «Кофеман», муська вачары .

To save space with UTF-8, use VARCHAR instead of CHAR. Otherwise, MySQL must reserve three bytes for each character in a CHAR CHARACTER SET utf8 column because that is the maximum possible length. For example, MySQL must reserve 30 bytes for a CHAR(10) CHARACTER SET utf8 column.

CMS нет смысла считать по честному.

Написано более трёх лет назад
Олег @402d

А так вы правы первый байт 208 или 209 и второй уточнение

Написано более трёх лет назад
Lynn «Кофеман» @Lynn

Олег, тогда код автора тоже не имеет смысла и надо просто длину строки умножать на 3 независимо от того какие там буквы

Написано более трёх лет назад
Олег @402d

Это не код автора, а легаси на которое он наткнулся в каком-то древнем движке.
Может костыль лет 15 назад написанный. Предположить могу, что в базу через одно место стали совать ютф , а сменить типы полей не было возможности(поленились).
АХЗ.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 1352 просмотра
7

ответов
JavaScript

Простой
Почему вместо галереи owl-gallery белое пространство?
- 1 подписчик
- 18 мая
- 60 просмотров
1

ответ
JavaScript

+1 ещё

Средний
Почему окно fancybox по ajax открывается и сразу закрывается?
- 1 подписчик
- 15 мая
- 82 просмотра
2

ответа
JavaScript

Простой
Как упростить/ улучшить получение данных?
- 1 подписчик
- 14 мая
- 141 просмотр
2

ответа
JavaScript

+1 ещё

Простой
Почему у поля input атрибут required не срабатывает?
- 2 подписчика
- 01 мая
- 343 просмотра
2

ответа
JavaScript

Простой
Будет ли корректно работать сортировка везде?
- 1 подписчик
- 01 мая
- 178 просмотров
4

ответа
JavaScript

Простой
Почему ничего не происходит — элементы p не добавляются на страницу?
- 1 подписчик
- 01 мая
- 116 просмотров
1

ответ
JavaScript

Простой
Почему при написании цикла for of работает, а при другом цикле не работает?
- 1 подписчик
- 15 апр.
- 399 просмотров
3

ответа
JavaScript

Простой
Почему зависает приложение? Почему не работает функция сортировки?
- 1 подписчик
- 14 апр.
- 253 просмотра
1

ответ
JavaScript

Простой
Почему не работает фильтрация?
- 1 подписчик
- 14 апр.
- 184 просмотра
1

ответ
Показать ещё Загружается…

С какой кодировкой хотите совладать, и чем вам:
console.log('Привет'.length);
не угодил?
А, вам в байтах нужно, а не в символах.
Тогда так.
console.log(new Blob(["Привет"]).size);
Если не нужно старые браузеры поддерживать, то этого хватит.
Если у вас корпоративный софт, который требует IE8+ поддержку, то могу посочувствовать.
Это кто вам такой ахтунг написал?

new TextEncoder().encode('Привет').length // 12
Или так

function mb_strlen(str) { return encodeURIComponent(str).replace(/%../g, '.').length; }

Answer 1 · 2021-07-14 19:16:14

И в чем неправильность ? длина строки в байтах в кодировке UTF-8 больше числа символов.
0-127 как 1 байт.
128- 255 как 2 байта
русские символы по три байта на символ
почитайте про кодировку .

Почему считает неверное количество символов в строке на кириллице?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт