Как убрать переносы строки в unicode?

Question

akelsey @akelsey

Как убрать переносы строки в unicode?

Станадртные методы не удаляют до конца.

В кратце ситуация, из elasticsearch библиотекой забираю определенный документ, с определенной структурой, который мне нужно переделать. Т.е. эти строки уже лежат в Elastic и я ожидаю что не нужно будет с ними возится, но по странной, даже непонятной мне причине, стандартная библиотека - не экранирует кавычки, вместо полей в кавычках массивы в JSON возвращает с апострофами, т.е. например:

{
"lastname": "Иванов",
"education": [
'пту №1',
'университет патрисы лумумбы'
],
"hobbies": "Люблю вышивать "крестиком" и 
вязать на спицах"
}

с кавычками частично справился,
нарисовал тупую функцию (внимание побочка! у перфекционистов могут закровоточить глаза):

def filter(mystr) -> str:
    mystr = str(mystr)
    mystr = mystr.replace('\r\n', u' ')
    mystr = mystr.replace('\r', u' ')
    mystr = mystr.replace('\n', u' ')
    mystr = mystr.replace('\\r', u' ')
    mystr = mystr.replace('\\n', u' ')
    mystr = mystr.replace('\\r\\n', u' ')
    mystr = mystr.replace('\'', u'"')
    mystr = mystr.replace('\"', u'\\\"')
    mystr = mystr.replace(u'True', u'true')
    mystr = mystr.replace(u'False', u'false')
    mystr = mystr.replace(u'None', u'null')
    re.sub('^\s+|\n|\r|\s+$', u'', mystr)
    return str(mystr)

Она частично работает, но из 100 документов в 5 пропускаются строки с переносом.
Глянул в hex строчку с переносом (между "и" & "в":

я вижу 0xD 0xA которые вроде должны были убиться функцией, но они там остаются, но в юникоде же это должно быть 0x000D и 0x000A если не ошибаюсь. (т.е. сами символы закодированы верно 0xD0B8 & 0xD0B2). Или это ок для UTF-8?
Есть ли какой стандартный метод или функция или библиотека, которой можно скормить JSON для bulk в elasticsearch, что бы она обошла все значения рекурсивно значения ключей и всё сделала "зашибись".
Спасибо.

Вопрос задан более трёх лет назад
184 просмотра

8 комментариев

Подписаться 1 Простой 8 комментариев

Andy_U @Andy_U

Это вот действительно так:

"Люблю вышивать "крестиком" и
вязать на спицах"

Т.е. двойные кавычки внутри двойных кавычек? Или там разные символы? См. stackoverflow

Написано более трёх лет назад
akelsey @akelsey Автор вопроса

Andy_U, больше проблема не в кавычках, а в переносе строки. \n \r или 0xA 0xD. не могу вычистить, а из-за этого не могу закинуть в эластик.
За ссылку спасибо, посмотрю.

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev Куратор тега Python

Зачем эти костыли, если можно просто скормить строку полученную из эластика модулю json?

Написано более трёх лет назад
Andy_U @Andy_U

akelsey, Что-то я перестал понимать, что Вам нужно сделать. В вопросе вы говорите, что Вы что-то забираете из elasticsearch, в ответе на мой комментарий - что что-то не можете туда закинуть. Я думал, что это elasticsearch вам такие кривые строки выдает, но похоже вы просто json ручками генерируете, добавляя в строки начальные и завершающие кавычки и пытаясь обработать ручками переносы строк, обратные слеши и пр.? Воспользуйтесь тогда или функцией repr() вместо вашей, или предыдущим советом.

Написано более трёх лет назад
Andy_U @Andy_U

Сергей Горностаев, А можно еще filter() автора заменить на repr().

Написано более трёх лет назад
akelsey @akelsey Автор вопроса
Сергей Горностаев,

Зачем эти костыли, если можно просто скормить строку полученную из эластика модулю json?

Да я наивно полагал что если я получу строку:

for hit1 in res1['hits']['hits']: peopleAbout = hit1['_source']['about']

то в peopleAbout будет готовая строка, которую я смогу потом забросить в другой индекс без всякого преобразования, но не выходит цветок каменный Данила... Т.е. я его закидываю через bulk (примерный код):

json = '{"index":{}}\n" \ + '{' \ + '"newfield":' + people + '}" es.bulk(index="new_index",json) print(json)

эластик не ругается, но не пишет в индекс, вставляю этот же текст в кибану в девтулз, вижу ошибки различные типа
codec can't decode byte 0xb2
char 9
... и другие
Исправляю в devtools - текст влетает в эластик:

POST new_index/_bulk {"index":{}} {......}

Andy_U,
Я забираю документ из одного индекса, пытаюсь его преобразовать в новый json и записать в другой индекс. Основная идея была что это потребует минимальных переделок, но оказалось не так.

Про repr() спасибо почитаю.
Написано более трёх лет назад
Andy_U @Andy_U

akelsey, Лучше сразу про json.dumps() почитайте.

Написано более трёх лет назад
akelsey @akelsey Автор вопроса

Andy_U, Сергей Горностаев, спасибо парни, вы меня отправили копать в правильном направлении. В целом я неверно обрабатывал ответы эластика, мне не нужно было работать с ними как со строками, а необходимо сразу было работать как с объектами типа dict & list и в конце уже json.dumps для скармливания эластику, отсюда и были проблемы. Вот чем хорош тостер, тем что если видишь, что коллеги в области в которой ты нуб, не понимают твоих проблем, значит где-то я свернул не туда. :-)

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- вчера
- 97 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 190 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 329 просмотров
1

ответ
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 2 подписчика
- 20 окт.
- 207 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 279 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 173 просмотра
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 653 просмотра
2

ответа
Laravel

+1 ещё

Средний
Production.ERROR: No alive nodes. All the 1 nodes seem to be down -- laravel?
- 1 подписчик
- 14 окт.
- 106 просмотров
0

ответов
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 143 просмотра
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 154 просмотра
1

ответ
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Это вот действительно так:

"Люблю вышивать "крестиком" и
вязать на спицах"

Т.е. двойные кавычки внутри двойных кавычек? Или там разные символы? См. stackoverflow
Andy_U, больше проблема не в кавычках, а в переносе строки. \n \r или 0xA 0xD. не могу вычистить, а из-за этого не могу закинуть в эластик.
За ссылку спасибо, посмотрю.
Зачем эти костыли, если можно просто скормить строку полученную из эластика модулю json?
akelsey, Что-то я перестал понимать, что Вам нужно сделать. В вопросе вы говорите, что Вы что-то забираете из elasticsearch, в ответе на мой комментарий - что что-то не можете туда закинуть. Я думал, что это elasticsearch вам такие кривые строки выдает, но похоже вы просто json ручками генерируете, добавляя в строки начальные и завершающие кавычки и пытаясь обработать ручками переносы строк, обратные слеши и пр.? Воспользуйтесь тогда или функцией repr() вместо вашей, или предыдущим советом.
Сергей Горностаев, А можно еще filter() автора заменить на repr().
Сергей Горностаев,

Зачем эти костыли, если можно просто скормить строку полученную из эластика модулю json?

Да я наивно полагал что если я получу строку:

for hit1 in res1['hits']['hits']: peopleAbout = hit1['_source']['about']

то в peopleAbout будет готовая строка, которую я смогу потом забросить в другой индекс без всякого преобразования, но не выходит цветок каменный Данила... Т.е. я его закидываю через bulk (примерный код):

json = '{"index":{}}\n" \ + '{' \ + '"newfield":' + people + '}" es.bulk(index="new_index",json) print(json)

эластик не ругается, но не пишет в индекс, вставляю этот же текст в кибану в девтулз, вижу ошибки различные типа
codec can't decode byte 0xb2
char 9
... и другие
Исправляю в devtools - текст влетает в эластик:

POST new_index/_bulk {"index":{}} {......}

Andy_U,
Я забираю документ из одного индекса, пытаюсь его преобразовать в новый json и записать в другой индекс. Основная идея была что это потребует минимальных переделок, но оказалось не так.

Про repr() спасибо почитаю.
akelsey, Лучше сразу про json.dumps() почитайте.
Andy_U, Сергей Горностаев, спасибо парни, вы меня отправили копать в правильном направлении. В целом я неверно обрабатывал ответы эластика, мне не нужно было работать с ними как со строками, а необходимо сразу было работать как с объектами типа dict & list и в конце уже json.dumps для скармливания эластику, отсюда и были проблемы. Вот чем хорош тостер, тем что если видишь, что коллеги в области в которой ты нуб, не понимают твоих проблем, значит где-то я свернул не туда. :-)

Answer 1 · 2020-01-03 18:55:05

teenager_python @teenager_python

Регуляркой:
import re

mystr = " balabla\n zzz "

re.sub("^\s+|\n|\r|\s+$", '', mystr)

Ответ написан более трёх лет назад

1 комментарий

Как убрать переносы строки в unicode?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт