Как игнорировать символы при чтении csv файла, которые не кодируются в uft-8?

Question

Кай @Tr3ShKirill

Наблюдатель Вселенной

Как игнорировать символы при чтении csv файла, которые не кодируются в uft-8?

Добрый день!

У меня есть файл csv, который дозаписывается каждый день уже несколько месяцев, в котором есть столбец с текстом. Читаю его обычно:

with open ('groups.csv', 'r', encoding='utf-8') as f:
    df = pd.read_csv(f, sep=';', index_col = False, encoding='utf-8')

Файл именно дозаписывается и до этого момента всё было окей. Ни файл, ни скрипт не трогал, но сегодня чтение началось df = pd.read_csv срабатывать с ошибкой.

Ругается на символы, которые не может перекодировать (строки с такими символами уже давним числом).
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd1 in position 161660: invalid continuation byte
В эксели они просматриваются так:

Через Notepad они видятся "xD0", "xD1"

Подскажите, пожалуйста, кто знающий, как такие символы в строке можно вычистить (не строки с ними, а сами эти символы) или как правильно считать csv в данном случае?
Сам файл в кодировке utf-8, читаю его тоже utf-8.

Просьба статьи не скидывать, всё уже облазил

Вопрос задан более трёх лет назад
323 просмотра

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- вчера
- 68 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 232 просмотра
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 228 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 630 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 545 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 305 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 557 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 226 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 139 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 339 просмотров
1

ответ
Показать ещё Загружается…

1. Не использовать модуль CSV
2. Читать файл построчно и разбирать строку самостоятельно
3. Перекодировать стоку методами encode/decode
В методах encode/decode можно установить обработку ошибок
my_string.decode(errors='ignore')

Схемы обработки ошибок

Схемы различаются между собой тем, что будет происходить при обнаружении в докодируемой строке неподдерживаемых кодировкой символов.

Имя Что происходит
strict Возбуждается UnicodeError (или наследника).
ignore Символы пропускаются.
replace Символы заменяются на U+FFFD (REPLACEMENT CHARACTER).
+py3.5backslashreplace Символы заменяются на последовательности, начинающиеся с обратной косой черты (слеша).
+py3.1surrogateescape Заменяет каждый байт на код суррогата (от U+DC80 до U+DCFF).
+py3.1surrogatepass Игнорирует в строке коды суррогатов. Используется со следующими кодеками: utf-8, а также начиная с +py3.4 utf-16, utf-32, utf-16-be, utf-16-le, utf-32-be, utf-32-le.

https://pythonz.net/references/named/str.decode/

Answer 1 · 2022-02-03 13:06:04

Прочитайте документация про replace, этот метод заменяет символы как вам надо, например есть строка '98 356', перевести в int мы ее не сможем, так как есть пробел в строке

a = '98 356'
a = replace(' ', '')
print(int(a))
Ответ: 98356

Т.е. в этот метод мы передаем символ, который хотим заменить и символ на который меняем
replace('символ, который хотим заменить', 'символ на который меняем')

Answer 2 · 2022-02-02 18:02:27

Пока что просто вычистил такие символы через BI
и всё решилось. Но в целом на будущее они могут появляться и хотелось бы их всё же избегать.

Как игнорировать символы при чтении csv файла, которые не кодируются в uft-8?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт