Template::Toolkit и utf-8 в шаблонах

Question

Вячеслав Голованов @SLY_G

журналист, переводчик, программист, стартапщик

Perl
Unicode

Template::Toolkit и utf-8 в шаблонах

Следующая проблема не даёт спать.

perl, v5.10.1 built for MSWin32-x86-multi-thread (acivestate)
template::toolkit 2.22

В скриптах везде указано use utf8, во всех скриптах и во всех темплейтах есть BOM-заголовок, все сохранены в utf.
Инициализация так сделана:
$tt = Template->new({
INCLUDE_PATH => $$cfg{tpl_path},
ENCODING => 'utf8',
}) || die "$tt::ERROR\n";

Проблема:
если в шаблоне есть не-ascii символ, к примеру, любая русская буква — тогда на выходе получается каша вида "ÐÐ»ÑÐ¿ÑÐ¹ Ð²Ð¾Ð¿ÑÐ¾Ñ" (при этом русские буквы, которые в шаблоне присутствовали, читаются).

Если в шаблоне только ascii, тогда всё работает нормально, включая русские строки, которые изымаются из базы и вставляются в шаблоны.
То есть, TT не хочет нормально работать с шаблонами, в которых изначально есть русские буквы. При этом строит страницы по этим шаблонам без проблем, даже если в значениях переменных оказываются русские буквы.
Ставил в вызовах process() опцию binmode => ':utf8', не помогает.

Как-то это лечится?

Вопрос задан более трёх лет назад
3394 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

1С-программист

10 месяцев

Далее
Skillbox

Профессия Графический дизайнер PRO

15 месяцев

Далее
Hi-TECH Academy

KL 004.2.4 Kaspersky SD-WAN

2 дня

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Windows

+1 ещё

Средний
Как скомпилировать код на perl в исполняемый файл на windows?
- 2 подписчика
- 12 янв.
- 177 просмотров
1

ответ
JavaScript

+4 ещё

Сложный
Почему в WebSockets History в Burp Suite отображаются кракозябры?
- 1 подписчик
- более года назад
- 224 просмотра
2

ответа
Apache HTTP Server

+1 ещё

Простой
Как убрать запись Perl warnings в лог ошибок Apache?
- 1 подписчик
- более года назад
- 371 просмотр
1

ответ
Windows

+1 ещё

Простой
Где взять ActivePerl с модулями DBD::mysql и Geo::IP::PurePerl?
- 1 подписчик
- более года назад
- 89 просмотров
0

ответов
Windows

+3 ещё

Средний
На Windows 10 не работают cgi-скрипты?
- 1 подписчик
- более года назад
- 230 просмотров
1

ответ
C#

+1 ещё

Средний
Что делать когда при конвертации из utf8 в string я получаю (string)\0\0\0 и так далее?
- 1 подписчик
- более года назад
- 142 просмотра
1

ответ
Python

+2 ещё

Простой
Почему хранимая процедура MySQL не принимает кириллицу?
- 3 подписчика
- более года назад
- 164 просмотра
1

ответ
Python

+1 ещё

Простой
Как декодироавать строку без искажений?
- 1 подписчик
- более года назад
- 114 просмотров
1

ответ
WordPress

+1 ещё

Простой
Как в Wordpress запретить менять вид спецсимволов?
- 1 подписчик
- более года назад
- 76 просмотров
1

ответ
C

+1 ещё

Средний
Как реализовать кроссплатформенную поддержку Unicode в аргументах командной строки в C?
- 1 подписчик
- более года назад
- 214 просмотров
2

ответа
Показать ещё Загружается…

Администратор Windows

Монетка • Екатеринбург

от 130 000 до 160 000 ₽

SRE/DevOps инженер

Сбер • Москва

от 200 000 до 300 000 ₽

Database Administrator / DBA

Playerok

от 300 000 ₽

Answer 1 · 2012-01-09 21:39:12

Всем спасибо за помощь.

Проблема решается единственной директивой:

$dbh -> {'mysql_enable_utf8'} = 1;

По-умолчанию стоит «0», поэтому, я подозреваю, TT конвертил данные от sql в utf самостоятельно, но как-то не в том месте, в результате какие-то данные оказывались дважды преобразованными в utf.

Answer 2 · 2012-01-09 18:44:27

Похоже, проблема всё-таки не в TT.

Такой вот скрипт:

use utf8;
use open OUT => ':utf8';
use DBI;
my $dbh = DBI->connect(«DBI:mysql:database=mybase;host=localhost;port=3306», «login», «pass»);
#$dbh->do('SET CHARACTER SET utf8');

open TST, '>utftest1.txt';
binmode TST;
print TST «русский»;

$test = $dbh->selectrow_array(«SELECT 'русский'»);
open TST, '>utftest2.txt';
binmode TST;
print TST $test;

Файл utftest1.txt содержит 14 байт, и если его смотреть любым текстовым редактором, видно слово «русский».
Файл utftest2.txt содержит 28 байт непонятно чего (двойная перекодировка?):

0000000000: C3 91 C2 80 C3 91 C2 83 │ C3 91 C2 81 C3 91 C2 81
0000000010: C3 90 C2 BA C3 90 C2 B8 │ C3 90 C2 B9

Но при этом то, что выдаёт DBI, обрабатывается при помощи TT правильно в моих скриптах! А проблемы начинаются, если в скрипт или шаблон вставлять русские символы.

Answer 3 · 2012-01-09 21:29:17

Удалось сделать небольшой скрипт, где возникает ошибка.

файл со скриптом:

use utf8;
use strict;
use vars qw($dbh $tt);
use DBI;
use Template;

$dbh = DBI->connect(«DBI:mysql:database=mybase;host=localhost;port=3306», «login», «pass»);

$tt = Template->new({
INCLUDE_PATH => '.',
DEFAULT_ENCODING => 'utf8',
ENCODING => 'utf8',
}) || die "$tt::ERROR\n";

my $testvar = $dbh->selectrow_array(«SELECT 'Текст'»);

$tt->process('template.htm', { 'testvar' => $testvar }) || die $tt->error(), "\n";

Темплейт — в отдельном файле template.htm

Если в темплейте оставить следующее:
[% testvar %] and some ascii text.

тогда отрабатывает ок, на выходе получаем «Текст and some ascii text.»

Если в темплейт добавить русский текст, например
[% testvar %] русский and some ascii text.

то на выходе имеем кашу:
Ð¢ÐµÐºÑÑ русский and some ascii text.

При этом оба файла, и скрипт и темплейт, сохранены в utf-8 с заголовком BOM.

Template::Toolkit и utf-8 в шаблонах

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт