Как в django в GET-параметрах для кириллицы заменить ANSI-кодирование на Unicode-кодирование и сделать переадресацию на новый адрес?

Question

atoster @atoster

Как в django в GET-параметрах для кириллицы заменить ANSI-кодирование на Unicode-кодирование и сделать переадресацию на новый адрес?

Есть сайт с поисковой формой. Запросы в форму отправляются на кириллице.
Все работает отлично. Но есть проблема.

При вводе в поисковой форме, например, слова "уезд", браузер отображает адрес:
https://example.com/?search=уезд
Это обычное поведение браузеров, которые при отображении заменяют кодированные адреса на читаемые.

Если этот url адрес скопировать в буфер обмена и вставить, например, в блокнот, то получим:

https://example.com/?search=%D1%83%D0%B5%D0%B7%D0%B4

Т.е. кириллица (слово "уезд") в Unicode закодировано. Это нормальный рабочий адрес, который можно вставлять на форумах итп. Большая часть ссылок, которые пользователи сайта оставляют в интернете именно такие (правильные).

Но по какой-то причине иногда пользователи сайта размещают ссылки в таком виде:
https://example.com/?search=%F3%E5%E7%E4
Здесь тоже самое слово "уезд" закодировано в ANSI. Как они такие ссылки из браузера копируют, я не знаю. Может какие-то браузеры необычные это делают. Может быть это особенность каких-то программ на мобильных устройствах. Может от операционной системы зависит... Главное здесь то, что после открытия такой ссылке в поисковом поле вместо нормального слова указано '��' и естественно вместо ожидаемых результатов поиска - нулевой результат.
Если в django во view.py вывести в консоль через print параметр requests.GET["search"], то он тоже отображается, как '��' , т.е., вероятно, во view.py с ним уже ничего не сделаешь.

Вопрос мой следующий. Как в django определить, что в url в GET-параметрах для кириллицы использовано ANSI-кодирование и как раскодировать для использования эти параметры. Или, что лучше, - как сделать переадресацию на аналогичный, но "правильный" адрес с кодированием в Unicode?

Т.е. я хочу, чтобы адреса и с ANSI, и c Unicode закодированной кириллицей обрабатывались правильно.

Я пробовал играть в консоли. Саму строку url я могу раскодировать из ANSI-кодирования в читаемый текст и затем могу закодировать в правильный вариант по правилам Unicode. Но в django у меня такое не получается. Плюс я не знаю, в каком месте как это правильнее делать.

import urllib.parse

original = "%F3%E5%E7%E4"

unquoted = urllib.parse.unquote(original, encoding="ANSI")
print(unquoted)  # -> уезд

quoted = urllib.parse.quote(unquoted)
print(quoted)  # -> %D1%83%D0%B5%D0%B7%D0%B4

Вопрос задан более года назад
339 просмотров

Комментировать

Подписаться 5 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 1

3 комментария

atoster @atoster Автор вопроса

Здесь не подошло ничего.

Это другой вопрос. У человека в URL Unicode "%C3%A9", которое в django попадают в виде "u'\xc3\xa9'. При необходимости если в таком виде символы пришли во view, их там можно перекодировать. Но даже при этом по указанной ссылке нет нормального решения. Человек сам спросил и сам ответил, что, ничего не меняя в коде, при использовании древней версии django 1.4 у него нет проблем, а при использовании альфа-версии 1,5a1 проблемы есть. Предлагает использовать версию 1.4. Я использую django 4.1...

У меня, если в URL стоят закодированные символы Unicode, в отличие от темы на stackoverflow, в django попадают нормальные раскодированные символы на кириллице и все работает без проблем. У меня это штатный вариант. Проблема проявляется в случаях когда пользователь сначала штатно работает, находит в поиске интересующие его результаты, копирует из браузера ссылку и вставляет ее на какой-нибудь форум. А с форума ссылка в каких-то случаях уже не открывается. Точнее ссылка открывается, но в форме в поисковом поле стоят '��' и поиск выдает нулевой результат. Внутри django никаких ошибок не возникает.

Я сам воспроизвести "неправильное копирование" ссылки из браузера не могу. У меня из всех браузеров ссылки копируются правильные. При размещении их где-либо они нормально открываются. Но, вероятно, есть какие-то диковинные браузеры, которые как-то по особенному копируют ссылки из адресной строки.

А распознать "неправильную" ссылку я могу с первого взгляда. Если в url закодированы ANSI символы, то одному символу на кириллице соответствует короткая комбинация типа "%F3", а если та же буква в unicode, то ей соответствует комбинация в два раза длиннее "%D1%83". Вот есть таблица соответствия кодов для в двух кодировках https://snipp.ru/handbk/url-code Сама переконвертация с помощью urllib несложная. Но во view уже приходят вместо кодов одинаковые символы с вопросами в ромбиках, да и хотелось бы найти красивое решение, если оно есть.

Написано более года назад
Dimonchik @dimonchik2013

там же есть намек на красоту

https://stackoverflow.com/questions/5154358/django...

Вы же сами решение написали, оберните его красиво да и все

Написано более года назад
atoster @atoster Автор вопроса

По второй ссылке на stackoverflow тоже нет решения. Там объясняется, что такое render() и чем render() отличается от аналогов в django 1.x.

Что такое render(), redirect() итп я знаю. Передать переменную в темплейт или сделать переадресацию я умею. Сконверитровать коды с процентами в тестовой консоли (не внутри django) я тоже умею. Но во view.py, в первой строчке кода я получаю значение GET-параметра, и там уже только '��' - это все одинаковые ромбики, с ними ничего сделать нельзя. Нужно как-то получить не ромбики на входе, чтобы можно было дальше что-то делать. Чтобы не повторяться, третий раз я полностью описывать проблему.

Написано более года назад