Как редактировать данные на лету при импорте из файла?

Question

monday_suicide @dcc

junior

PostgreSQL

Как редактировать данные на лету при импорте из файла?

Всем привет. Есть scv файл в 600 млн строк. Нужно сделать импорт, но есть проблема. В некоторых строках встречается символ, который является делимтром, из-за этого программа думает, что нет нужного столбца. Может кто сталкивался? Как решить эту проблему?

Вопрос задан более двух лет назад
82 просмотра

12 комментариев

Подписаться 1 Простой 12 комментариев

Slava Rozhnev @rozhnev

Я бы сначала сделал исправления в файле

Написано более двух лет назад
mayton2019 @mayton2019

А как ты будешь угадывать где символ делимитер а где настоящий?

Я к чему это спрашиваю. Есть автоматизация замен символов в unix системах например через sed, awd, tr
и прочие утилиты. Но чтобы они заработали нужен четкий алгоритм.

У тебя есть этот четкий алгоритм?

Написано более двух лет назад
Дмитрий @iMedved2009

mayton2019, для того что бы был четкий алгоритм, нужно четко знать что за данные что за делимитер. вполне возможно что там данные можно выдернуть каким нибудь egrep

Написано более двух лет назад
monday_suicide @dcc Автор вопроса

mayton2019, Дмитрий Всего три столбца.
Делимитр |
1 - timestamp
2 - строка
3 - json.
в 1 столбце символа быть не может.
в 2 - они встречается
в 3 - тоже может встречаться, но тут можно сыграть на том, что строка всегда начианется и заканчитвается на {}

Написано более двух лет назад
Дмитрий @iMedved2009

monday_suicide, ну приведите пару ошибочных строк и пару корректных. мне кажется просто стоит вырезать первую колонку по патерну таймстампа, третью по {} а вторая как бы сама организуется из остатка.

Написано более двух лет назад
monday_suicide @dcc Автор вопроса

Дмитрий, Да, я тоже так думал. Просто может я и вопрос не правильно сформулировал. Я просто думал, что такие манипуляци можно сделать на лету, средствами psql непосредственно при импорте.
Теперь посоветуйте инстурмент для такой задачи. Чуть ниже есть совет, но думается мне, то есть более простое решение. Я просто с такими объемными файлами никогда не работал, собственно и не знаю как это делать правильно. Отсюда и вопросы.

Написано более двух лет назад
Дмитрий @iMedved2009
monday_suicide, дык можно на лету как нибудь так как мне помнится:

sed pattern file | psql db -c "COPY table FROM STDIN DELIMITER '|' CSV HEADER"

осталось только написать pattern
Написано более двух лет назад
monday_suicide @dcc Автор вопроса

Дмитрий, спасибо!

Написано более двух лет назад
monday_suicide @dcc Автор вопроса

Дмитрий, Перенесите в ответы, я отмечу решением.

Написано более двух лет назад
Дмитрий @iMedved2009

monday_suicide, да это не решение - это указание куда копать.

Написано более двух лет назад
mayton2019 @mayton2019

Дмитрий, это в принципе 99% решение. Дальше пускай автор создает другой вопрос по регуляркам.

Написано более двух лет назад
Akina @Akina

monday_suicide,
В некоторых строках встречается символ, который является делимтром, из-за этого программа думает, что нет нужного столбца.

Если разделитель полей в значении поля не экранирован, значит, CSV некорректен. И по-хорошему нужно корректировать то программное средство, которое выгружает данные.

Всего три столбца.
Делимитр |
1 - timestamp
2 - строка
3 - json.
в 1 столбце символа быть не может.
в 2 - они встречается
в 3 - тоже может встречаться, но тут можно сыграть на том, что строка всегда начианется и заканчитвается на {}

В принципе согласен - разумнее обработать CSV, чем выкручиваться при импорте. Возможный вариант решения при импорте может быть такой: в запросе выполняем импорт всей строки данных в строковое поле, а в триггере BEFORE INSERT выполняем парсинг - откусываем в первое поле всё от начала до первого разделителя (его самого вообще удаляем), а в json-поле всё после первого разделителя и открывающей фигурной скобки (если строковое поле может содержать такой фрагмент - то от скобки, комплементарной закрывающей фигурной).

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

+1 ещё

Средний
Sqlx + pgx — выборка по набору пар значений столбцов без танцев с бубном?
- 1 подписчик
- 07 июл.
- 95 просмотров
1

ответ
Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 354 просмотра
2

ответа
PostgreSQL

Простой
Запрос с 1 условием для выбора источника данных?
- 1 подписчик
- 08 апр.
- 172 просмотра
2

ответа
PostgreSQL

+1 ещё

Средний
Как в PostgreSQL организовать синхронизацию данных между геораспределенными копиями?
- 1 подписчик
- 25 мар.
- 334 просмотра
3

ответа
PostgreSQL

Простой
Как оптимизировать запрос с фильтром?
- 2 подписчика
- 13 мар.
- 347 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Как работает Housekeeper в Zabbix?
- 1 подписчик
- 07 мар.
- 350 просмотров
3

ответа
PostgreSQL

+3 ещё

Средний
Как обновить PostgreSQL 1С с 12 до 18 версии на windows?
- 3 подписчика
- 11 февр.
- 806 просмотров
2

ответа
PostgreSQL

Простой
Как увидеть все запросы к postgres?
- 1 подписчик
- 15 янв.
- 319 просмотров
1

ответ
PostgreSQL

+1 ещё

Средний
Почему не запускается контейнер DB в Docker?
- 1 подписчик
- 08 янв.
- 388 просмотров
2

ответа
Linux

+4 ещё

Средний
Runtipi: как корректно переключить встроенный Postgres-контейнер на внешний Postgres (.env / runtipi-cli / docker compose)?
- 1 подписчик
- 26 дек. 2025
- 217 просмотров
0

ответов
Показать ещё Загружается…

Я бы сначала сделал исправления в файле
А как ты будешь угадывать где символ делимитер а где настоящий?

Я к чему это спрашиваю. Есть автоматизация замен символов в unix системах например через sed, awd, tr
и прочие утилиты. Но чтобы они заработали нужен четкий алгоритм.

У тебя есть этот четкий алгоритм?
mayton2019, для того что бы был четкий алгоритм, нужно четко знать что за данные что за делимитер. вполне возможно что там данные можно выдернуть каким нибудь egrep
mayton2019, Дмитрий Всего три столбца.
Делимитр |
1 - timestamp
2 - строка
3 - json.
в 1 столбце символа быть не может.
в 2 - они встречается
в 3 - тоже может встречаться, но тут можно сыграть на том, что строка всегда начианется и заканчитвается на {}
monday_suicide, ну приведите пару ошибочных строк и пару корректных. мне кажется просто стоит вырезать первую колонку по патерну таймстампа, третью по {} а вторая как бы сама организуется из остатка.
Дмитрий, Да, я тоже так думал. Просто может я и вопрос не правильно сформулировал. Я просто думал, что такие манипуляци можно сделать на лету, средствами psql непосредственно при импорте.
Теперь посоветуйте инстурмент для такой задачи. Чуть ниже есть совет, но думается мне, то есть более простое решение. Я просто с такими объемными файлами никогда не работал, собственно и не знаю как это делать правильно. Отсюда и вопросы.
monday_suicide, дык можно на лету как нибудь так как мне помнится:

sed pattern file | psql db -c "COPY table FROM STDIN DELIMITER '|' CSV HEADER"

осталось только написать pattern
Дмитрий, Перенесите в ответы, я отмечу решением.
monday_suicide, да это не решение - это указание куда копать.
Дмитрий, это в принципе 99% решение. Дальше пускай автор создает другой вопрос по регуляркам.
monday_suicide,
В некоторых строках встречается символ, который является делимтром, из-за этого программа думает, что нет нужного столбца.

Если разделитель полей в значении поля не экранирован, значит, CSV некорректен. И по-хорошему нужно корректировать то программное средство, которое выгружает данные.

Всего три столбца.
Делимитр |
1 - timestamp
2 - строка
3 - json.
в 1 столбце символа быть не может.
в 2 - они встречается
в 3 - тоже может встречаться, но тут можно сыграть на том, что строка всегда начианется и заканчитвается на {}

В принципе согласен - разумнее обработать CSV, чем выкручиваться при импорте. Возможный вариант решения при импорте может быть такой: в запросе выполняем импорт всей строки данных в строковое поле, а в триггере BEFORE INSERT выполняем парсинг - откусываем в первое поле всё от начала до первого разделителя (его самого вообще удаляем), а в json-поле всё после первого разделителя и открывающей фигурной скобки (если строковое поле может содержать такой фрагмент - то от скобки, комплементарной закрывающей фигурной).

Answer 1 · 2023-10-11 17:35:48

читай сначала pandas'om по частям. Затем решай проблему с данными или пропускай плохие строки или применяй к ним свою функцию, которая поможет растолковать что является делимитром в определенной строке и записывай ну или в базу тем же pandas'om или в csv файл и затем импортируй его в базу уже.

читать по частям pandas

import pandas as pd
chunksize = количество строк
for chunk in pd.read_csv('large_file.csv', chunksize=chunksize):
    # подправляешь свой фрейм

Каждый chunk это фрейм, если у тебя будут проблемы с делимитром он выдаст ошибку. Твоя задача написать код который это дело поправит, pandas имеет очень мощный I/O функционал. https://pandas.pydata.org/docs/user_guide/io.html По ссылке найдешь доки не только насчет ошибок при чтении csv файлов, но и как писать в базу, метод to_sql. Он имеет параметр имя таблицы, соедениение и if_exist, так вот в if_exist поставишь append. То есть каждый твой подправленный кусок файла он будет складывать в таблицу в базе.
https://pandas.pydata.org/docs/reference/api/panda...

Как редактировать данные на лету при импорте из файла?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт