Можно ли удалить с помощью регулярного выражения все не UNICODE символы из колонки?

Question

andreevyaroslav @andreevyaroslav

SQL

Можно ли удалить с помощью регулярного выражения все не UNICODE символы из колонки?

Можно ли удалить с помощью регулярного выражения все не UNICODE символы из колонки?

Перетаскиваю данные из хадупа в питон и возникла проблема.

Вопрос задан более трёх лет назад
96 просмотров

7 комментариев

Подписаться 1 Простой 7 комментариев

Rsa97 @Rsa97

А какие ещё символы есть, кроме unicode?
Вообще-то в нём вся таблица от 0 до 1FFFF

Написано более трёх лет назад
Сергей c0re @erge

andreevyaroslav , можно подробностей?
1. что удалять, что не удалять, в каком виде строка?
2. удалять какими средствами СУБД или питоном?
3. какая СУБД ?

PS: регулярными выражениям можно все или почти все (очень многое)

Написано более трёх лет назад
andreevyaroslav @andreevyaroslav Автор вопроса

Сергей c0re, в общем, проблем такая, что с помощью питона перетянуть пытаюсь данные из хадупа в витрину терадаты, возникает ошибка 6706 https://docs.teradata.com/r/GVKfXcemJFkTJh_89R34UQ...
Так понимаю из-за ряда символов, удалять без разницы на самом деле как

Написано более трёх лет назад
andreevyaroslav @andreevyaroslav Автор вопроса

Сергей c0re, проблема в одном строковом столбце

Написано более трёх лет назад
Сергей c0re @erge

andreevyaroslav, честно не знаю ни хадуп ни терадату, ни тем более не знаю как вы данные перетягиваете. но знаю про регулярки.

под юникодом вы имеете ввиду такие строки?

\u0442\u0435\u043a\u0441\u0442\u0020\u0432\u0020\u044e\u043d\u0438\u043a\u043e\u0434

Написано более трёх лет назад
Сергей c0re @erge

andreevyaroslav, поменяйте теги к вопросу, тут явно надо еще какие-то добавить.

Написано более трёх лет назад
Adamos @Adamos

andreevyaroslav, ошибка не "из-за ряда символов", а из-за того, что данные не в той кодировке. Поэтому, пытаясь прочитать их как UTF-8, БД обнаруживает последовательности байтов, которые в UTF-8 не имеют смысла. Вот и выдает вам соответствующую ошибку.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

SQL для разработки

4 месяца

Далее
Stepik

SQL с нуля до PRO

2 недели

Далее
Skypro

SQL с нуля

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 2 подписчика
- 11 нояб.
- 209 просмотров
1

ответ
SQL

Простой
Почему INSERT присваивает только один символ вместо полного значения?
- 2 подписчика
- 29 окт.
- 184 просмотра
2

ответа
SQL

Простой
Правильно ли написан SQL-запрос для вывода клиентов с действующими (непогашенными) кредитами?
- 1 подписчик
- 19 окт.
- 229 просмотров
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт.
- 254 просмотра
4

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 327 просмотров
1

ответ
SQL

+3 ещё

Средний
IIS/Lansweeper сильно тормозит из-за аномального числа логонов, внутренний DDoS?
- 1 подписчик
- 15 сент.
- 104 просмотра
0

ответов
SQL

+1 ещё

Простой
Как объединить 2 таблицы обращаясь к одному и тому же полю 2 раза?
- 1 подписчик
- 08 сент.
- 211 просмотров
1

ответ
SQL

+1 ещё

Простой
Какие таблицы для продуктов (и их вариантов) в БД использовать?
- 1 подписчик
- 02 сент.
- 223 просмотра
1

ответ
SQL

+1 ещё

Средний
Как правильно написать запрос в SQL с NOT IN, NOT EXISTS или как-то иначе?
- 1 подписчик
- 28 авг.
- 191 просмотр
0

ответов
SQL

+1 ещё

Простой
Проверка связывания таблиц, как проверить?
- 2 подписчика
- 20 авг.
- 321 просмотр
0

ответов
Показать ещё Загружается…

Специалист технической поддержки Oracle Database и PostgreSQL

Омега • Москва

от 90 000 до 120 000 ₽

Database Administrator / DBA

Playerok

от 300 000 ₽

Full-Stack Разработчик (PHP 8 / Node JS / Vue JS / PostgreSQL)

Складно

от 150 000 ₽

А какие ещё символы есть, кроме unicode?
Вообще-то в нём вся таблица от 0 до 1FFFF
andreevyaroslav , можно подробностей?
1. что удалять, что не удалять, в каком виде строка?
2. удалять какими средствами СУБД или питоном?
3. какая СУБД ?

PS: регулярными выражениям можно все или почти все (очень многое)
Сергей c0re, в общем, проблем такая, что с помощью питона перетянуть пытаюсь данные из хадупа в витрину терадаты, возникает ошибка 6706 https://docs.teradata.com/r/GVKfXcemJFkTJh_89R34UQ...
Так понимаю из-за ряда символов, удалять без разницы на самом деле как
Сергей c0re, проблема в одном строковом столбце
andreevyaroslav, честно не знаю ни хадуп ни терадату, ни тем более не знаю как вы данные перетягиваете. но знаю про регулярки.

под юникодом вы имеете ввиду такие строки?

\u0442\u0435\u043a\u0441\u0442\u0020\u0432\u0020\u044e\u043d\u0438\u043a\u043e\u0434
andreevyaroslav, поменяйте теги к вопросу, тут явно надо еще какие-то добавить.
andreevyaroslav, ошибка не "из-за ряда символов", а из-за того, что данные не в той кодировке. Поэтому, пытаясь прочитать их как UTF-8, БД обнаруживает последовательности байтов, которые в UTF-8 не имеют смысла. Вот и выдает вам соответствующую ошибку.

Answer 1 · 2022-09-14 22:22:33

ну, если задача стоит почистить именно UNICODE!? это строка вида

\u0442\u0435\u043a\u0441\u0442\u0020\u0432\u0020\u044e\u043d\u0438\u043a\u043e\u0434

то примерно как-то так:

поиск
(\\u[0-9a-zA-Z]{4})(?!\\u[0-9a-zA-Z]{4}).*?(\\u[0-9a-zA-Z]{4})
замена на
\1\2

см. пример на regex101

import re

regex = r"(\\u[0-9a-zA-Z]{4})(?!\\u[0-9a-zA-Z]{4}).*?(\\u[0-9a-zA-Z]{4})"

test_str = ("\\u0442\\u0435\\u043a\\u0441\\u0442\\u0020\\u0432\\u0020\\u044e\\u043d\\u0438\\u043a\\u043e\\u0434\n\n"
	"\\u0442\\u0435dsds\\n\\u043a\\u0441\\u0442das\\u0020\\u0432dsdddddd\\u0020\\u044e\\u043d\\n\\n\\n\\u0438\\u043a\\u043e\\u0434")

subst = "\\1\\2"

# You can manually specify the number of replacements by changing the 4th argument
result = re.sub(regex, subst, test_str, 0)

if result:
    print (result)

см. пример python

PS: Unicode != UTF-8 charset
это не одно и то же.

Можно ли удалить с помощью регулярного выражения все не UNICODE символы из колонки?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт