@andreevyaroslav

Можно ли удалить с помощью регулярного выражения все не UNICODE символы из колонки?

Можно ли удалить с помощью регулярного выражения все не UNICODE символы из колонки?

Перетаскиваю данные из хадупа в питон и возникла проблема.
  • Вопрос задан
  • 76 просмотров
Пригласить эксперта
Ответы на вопрос 1
erge
@erge
Примус починяю
ну, если задача стоит почистить именно UNICODE!? это строка вида
\u0442\u0435\u043a\u0441\u0442\u0020\u0432\u0020\u044e\u043d\u0438\u043a\u043e\u0434


то примерно как-то так:

поиск
(\\u[0-9a-zA-Z]{4})(?!\\u[0-9a-zA-Z]{4}).*?(\\u[0-9a-zA-Z]{4})
замена на
\1\2

см. пример на regex101

import re

regex = r"(\\u[0-9a-zA-Z]{4})(?!\\u[0-9a-zA-Z]{4}).*?(\\u[0-9a-zA-Z]{4})"

test_str = ("\\u0442\\u0435\\u043a\\u0441\\u0442\\u0020\\u0432\\u0020\\u044e\\u043d\\u0438\\u043a\\u043e\\u0434\n\n"
	"\\u0442\\u0435dsds\\n\\u043a\\u0441\\u0442das\\u0020\\u0432dsdddddd\\u0020\\u044e\\u043d\\n\\n\\n\\u0438\\u043a\\u043e\\u0434")

subst = "\\1\\2"

# You can manually specify the number of replacements by changing the 4th argument
result = re.sub(regex, subst, test_str, 0)

if result:
    print (result)


см. пример python

PS: Unicode != UTF-8 charset
это не одно и то же.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы