Как заменить все иероглифы в строке Python?

Question

Денис @TaggedNorth

Начинающий программист

Как заменить все иероглифы в строке Python?

Доброго дня, пользователи habr. Столкнулся с такой проблемой, используя vk_api нужно загрузить документ .csv в сообщение бота, для этого приходится загружать файл сначала на сервер, однако VK ругается и не пропускает запрос на добавления файла, в котором содержатся азиатские иероглифы и плюется ошибкой

'charmap' codec can't decode byte 0x98 in position 254: character maps to

with open(FILE,'r',encoding='utf-8',newline='') as file:
                    reader = csv.reader(file, delimiter = ",")
                    data = list(reader)
                    row_count = len(data) - 1 
                print('Opening file!')
                document = open(FILE, 'r') # ФАЙЛ 
                print('Uploading file!')
                document_url = vk_session.method("docs.getMessagesUploadServer", {"type": "doc", "peer_id": userid}) #ЗАГРУЗКА ФАЙЛА НА СЕРВЕР
                print('Post!')
                try:
                    document_post = requests.post(document_url["upload_url"], files={"file":document}).json() #POST
                except Exception as exc:
                    print(f'{exc}')
                print('Saving file!')
                document_save = vk_session.method("docs.save", {"file": document_post["file"], "title":f"Search_{userid}"})#СОХРАНЕНИЕ ФАЙЛА
                document = document_save.get('doc')
                document_url = document['url']
                document_url = document_url[:document_url.find('?')] 
                #ОТПРАВКА СООБЩЕНИЯ
                print('Sending message')
                vk_session.method('messages.send', {'user_id': userid, "message":f'По вашему запросу найдено езультатов: {row_count} \n Просмотреть все в формате таблицы скачав документ по ссылке: {document_url}', 'random_id': 0, })

Существует ли способ, чтобы заменить все иероглифы, например, на символы '?'
Спасибо!

Вопрос задан более трёх лет назад
387 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 2

2 комментария

Денис @TaggedNorth Автор вопроса

а возможно как-то проверить, являются ли все символы в строке кириллицей или латиницей? Например проверить строку на наличии специальных символов из иврита, арабской вязи или азиатских иероглифов?

Написано более трёх лет назад
soremix @SoreMix Куратор тега Python
Денис, думаю, для этого есть библиотеки. Костыльно можно использовать регулярные выражения либо проверять по своему словарю. Правильнее будет использовать библиотеку string или что нибудь в этом духе

Можно сделать так, но это странно решение

import re import string def check_valid(s): for char in s: if not re.search(r'[А-яA-z]', char) and char not in string.punctuation and char not in string.whitespace: print('Невалидный символ', char) return print('Валидная строка') check_valid('Привет, World') check_valid('Прив下ет, World')
Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Как настроить группы при создании нового пользователя в битриксе?
- 1 подписчик
- 15 часов назад
- 67 просмотров
0

ответов
Python

+1 ещё

Простой
При добавления строчки @commands.has_permissions в терминале при запуске выдает ошибку?
- 1 подписчик
- 22 часа назад
- 71 просмотр
0

ответов
Python

+3 ещё

Простой
Как анти-бот системы определяют ботов и как от них защищаться?
- 1 подписчик
- вчера
- 156 просмотров
1

ответ
Python

+1 ещё

Простой
Можно ли отключить SSL сертификат при парсинге?
- 1 подписчик
- вчера
- 108 просмотров
0

ответов
Python

Простой
Не работает код, что делать?
- 2 подписчика
- 10 авг.
- 2030 просмотров
4

ответа
ВКонтакте

Простой
VK отклоняет фото при загрузке в пост в отложенные посты через VK api. Какой API нужен?
- 1 подписчик
- 09 авг.
- 47 просмотров
1

ответ
Python

Простой
Почему консольная программа перестает работать спустя время?
- 3 подписчика
- 08 авг.
- 2279 просмотров
3

ответа
Python

Простой
Как делать удаленную печать на python?
- 1 подписчик
- 08 авг.
- 151 просмотр
2

ответа
Python

Простой
Как импортировать модуль из git?
- 2 подписчика
- 07 авг.
- 172 просмотра
0

ответов
Python

+3 ещё

Простой
Как с помощью Kaspersky Security Center запустить скрипт?
- 1 подписчик
- 04 авг.
- 178 просмотров
0

ответов
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python-разработчик (Senior)

BCraft

от 3 500 до 4 500 $

Answer 1 · 2020-07-25 21:30:03

soremix @SoreMix Куратор тега Python

yellow

Откройте, указав кодировку файла, как делали это в первой строке

Ответ написан более трёх лет назад

2 комментария

Answer 2 · 2021-01-29 17:29:38

Нашел решение:

cjk_ranges = [
        ( 0x4E00,  0x62FF),
        ( 0x6300,  0x77FF),
        ( 0x7800,  0x8CFF),
        ( 0x8D00,  0x9FCC),
        ( 0x3400,  0x4DB5),
        (0x20000, 0x215FF),
        (0x21600, 0x230FF),
        (0x23100, 0x245FF),
        (0x24600, 0x260FF),
        (0x26100, 0x275FF),
        (0x27600, 0x290FF),
        (0x29100, 0x2A6DF),
        (0x2A700, 0x2B734),
        (0x2B740, 0x2B81D),
        (0x2B820, 0x2CEAF),
        (0x2CEB0, 0x2EBEF),
        (0x2F800, 0x2FA1F)
    ]

def is_cjk(char):
    char = ord(char)
    for bottom, top in cjk_ranges:
        if char >= bottom and char <= top:
            return True
    return False

Как заменить все иероглифы в строке Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт