Где теряется кодировка при отправке файла через POST?

Question

Дмитрий @dimanjy

Недопрограммист и полуинженер.

Django

Где теряется кодировка при отправке файла через POST?

Спасите!

Есть парсер на питоне, есть файл в кодировке UTF-8.

Когда читаю файл с диска, парсер его нормально жует:

import codecs
txt = codecs.open('file.txt', 'r', encoding='utf-8').read()
result = parse(txt) # OK!

Когда этот же файл вставляю в форму textarea и отправляю на сервер через POST, то парсер перестает работать. В частности он уже не может найти символ переноса строки

txt = request.POST.get('txt')
result = parse(txt) # Облом! Не находит '\n'!

В парсере есть поиск по регуляркам и поиск по src.startswith()

if src.startswith('\n'):
    ...

Вообще интересует вопрос, где что в какой кодировке бродит? На сервере Django.

По идее при отправке через форму все преобразуется в urlencode, но потом после приема все должно назад приводиться к UTF-8, что подтверждается выводом данных из POST обратно в шаблон. Т.е. в textarea выводится все тот же файл, все с теми же переносами... Но парсер почему-то уже так не считает :(

Вопрос задан более трёх лет назад
131 просмотр

3 комментария

Подписаться 1 Простой 3 комментария

Дмитрий @dimanjy Автор вопроса

Конечно я в консоль печатаю все что только можно! :)
print(txt) из файла и из POST-а выглядят абсолютно одинаково - везде все переносы сохранены.

Написано более трёх лет назад
Дмитрий @dimanjy Автор вопроса

Pavel Denisov, не-не. Я тут попробовал сохранить файл через POST и сравнил с исходным.
Оказалось, что отличия есть!
Исходный в Midnight Commander "нормально" показывается, а сохраненный через POST в конце каждой строки имеет такой спец-символ ^M, как будто я открыл в Линуксе виндовый текстовый документ.

Я так понимаю, ^M - это не просто \n, а \n\r ???

Т.е. print() нам покажет в обоих случаях все одинаково, хотя окончания строк разные!

Написано более трёх лет назад
Дмитрий @dimanjy Автор вопроса

Pavel Denisov, да тут теперь даже не понятно, что считать нормой: то-ли \n, который красиво смотрится в линуксовом редакторе, то-ли \n\r, который автоматом после прогона через POST добавляется...

В любом случае, спасибо, что помогли разобраться! :)

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Django: создание backend-приложений

7 недель

Далее
Skillbox

Python-фреймворк Django

3 месяца

Далее
ProductStar

Python и Django: бэкенд-разработка

2 месяца

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Django

+1 ещё

Простой
Celery worker отказано в доступе?
- 1 подписчик
- 12 нояб.
- 104 просмотра
0

ответов
Django

Простой
Почему Django не может найти мое приложение?
- 1 подписчик
- 05 нояб.
- 132 просмотра
1

ответ
Django

Простой
Как передать image в форму Django для правильной прохождении валидации?
- 1 подписчик
- 22 окт.
- 85 просмотров
1

ответ
Django

Простой
Почему фикстура создания user ломает тест?
- 1 подписчик
- 20 окт.
- 124 просмотра
0

ответов
Django

Простой
Как опубликовать Django приложение, чтобы работали картинки .jpg?
- 1 подписчик
- 17 окт.
- 108 просмотров
2

ответа
Django

Простой
Почему django считает is_stuff неожиданным аргументом?
- 1 подписчик
- 17 окт.
- 77 просмотров
1

ответ
Django

Простой
Не могу получить данные из связаной модели ManyToMany rel?
- 1 подписчик
- 09 окт.
- 98 просмотров
1

ответ
Django

Простой
Почему нельзя обновить ImageField с помощью update?
- 1 подписчик
- 06 окт.
- 76 просмотров
1

ответ
Django

Простой
Почему не отображается изображение Django?
- 1 подписчик
- 03 окт.
- 103 просмотра
0

ответов
Django

Простой
Есть ли способ автоматически обрезать media файлы пользователей в Django?
- 1 подписчик
- 02 окт.
- 108 просмотров
1

ответ
Показать ещё Загружается…

Python разработчик Senior/Lead (Django, DRF)

Hello, Doc!

от 250 000 до 300 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Team/Tech Lead Python разработки

Greenway Global

от 250 000 до 400 000 ₽

Конечно я в консоль печатаю все что только можно! :)
print(txt) из файла и из POST-а выглядят абсолютно одинаково - везде все переносы сохранены.
Pavel Denisov, не-не. Я тут попробовал сохранить файл через POST и сравнил с исходным.
Оказалось, что отличия есть!
Исходный в Midnight Commander "нормально" показывается, а сохраненный через POST в конце каждой строки имеет такой спец-символ ^M, как будто я открыл в Линуксе виндовый текстовый документ.

Я так понимаю, ^M - это не просто \n, а \n\r ???

Т.е. print() нам покажет в обоих случаях все одинаково, хотя окончания строк разные!
Pavel Denisov, да тут теперь даже не понятно, что считать нормой: то-ли \n, который красиво смотрится в линуксовом редакторе, то-ли \n\r, который автоматом после прогона через POST добавляется...

В любом случае, спасибо, что помогли разобраться! :)

Answer 1 · 2017-11-16 13:17:12

Оказалось, что при прогоне через textarea POST у файла концы строк \n автоматически заменяются на \n\r, что удалось разглядеть только сохранив POST-файл и сравнив с исходным.

При этом print() выводит в консоль все одинаково, поэтому найти отличия можно только в редакторе, который имеет функцию отображения спец-символов переносов строки (mcedit под linux, например).

Где теряется кодировка при отправке файла через POST?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт