Возможна ли групповая вставка с проверкой на уникальность в PostgreSql?

Question

DamskiyUgodnik @DamskiyUgodnik

PostgreSQL

Возможна ли групповая вставка с проверкой на уникальность в PostgreSql?

Всем привет!
Задача:

Распарсить большое количество csv файлов с данными, и залить всё в PostgreSql.

Дополнительные условия:

Парсер на python (csv, psycopg2)
Структура таблицы - первичный ключ, текстовое поле, численные поля (порядка 10 штук)
Текстовое поле должно быть уникальным
Текстовое поле в среднем имеет длину порядка 100 символов
По числовым полям будут выборки (нужны индексы)
Прогнозируемый объём данным ~ 2,5-3 млрд строк
На момент записи данных, чтений из таблицы не будет (т.е. данные будут периодически заливаться пачками а потом по обновлённым данным планируется строить отчёты)

Что пробовал:

Сейчас сделал решение в лоб, проверка наличия через SELECT и INSERT (заливается по одной записи) в случае необходимости, т.к. решение однопоточное, то этого вполне хватает с точки зрения логики (на всякий случай есть индекс с ограничением на уникальность).
Пробовал делать без селекта с "откатом", по скорости сильно большой разницы не заметил, только появляется "головняк" с настройкой логированием запросов, которые "откатились" (возможно просто у меня не хватает опыта в правильной настройке постгри).

Проблемы:

После вставки ~50 млн записей, сильно деградирует производительность

Идеи:

Попробовать групповую вставку с контролем уникальности через индекс, но тут не понятно, как это вообще можно сделать? ведь например если мы вставляем 50 срок и из них одна дубль, "откатывается" весь запрос.

Собственно вопрос - как это сделать быстро? Есть подозрение, что задача довольно простая и часто встречающаяся, ну и умные люди уже придумали элегантное решение.

Вопрос задан более трёх лет назад
162 просмотра

1 комментарий

Подписаться 1 Простой 1 комментарий

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+2 ещё

Простой
Postgres Docker: Странные временные файлы в папке overlay2?
- 1 подписчик
- 23 июл.
- 174 просмотра
0

ответов
PostgreSQL

Простой
Почему не удается авторизоваться под юзером postgres?
- 1 подписчик
- 22 июл.
- 93 просмотра
3

ответа
PostgreSQL

Простой
Как подружить анализатор PostgreSQL со своим составным типом?
- 2 подписчика
- 19 июл.
- 1258 просмотров
1

ответ
PostgreSQL

Простой
Как отсортировать дни рождения от ближайшего?
- 1 подписчик
- 16 июл.
- 136 просмотров
1

ответ
PostgreSQL

Простой
Как понять почему размер БД вырос на 30%?
- 5 подписчиков
- 14 июл.
- 3348 просмотров
2

ответа
PHP

+1 ещё

Простой
Как получить id добавленной записи PHP PDO PGSQL?
- 1 подписчик
- 01 июл.
- 228 просмотров
1

ответ
PostgreSQL

Средний
В чем может быть причина сброса значения sequence в БД?
- 1 подписчик
- 23 июн.
- 152 просмотра
1

ответ
PostgreSQL

Простой
Как обнаружить все битые таблицы?
- 1 подписчик
- 12 июн.
- 186 просмотров
1

ответ
Linux

+3 ещё

Простой
Вылеты 1с без ошибок на дебиане, как исправить?
- 1 подписчик
- 10 июн.
- 264 просмотра
2

ответа
PostgreSQL

Простой
Нормально ли дублирование строк в IN?
- 1 подписчик
- 19 мая
- 237 просмотров
3

ответа
Показать ещё Загружается…

Администратор баз данных PostgreSQL

Bell Integrator • Москва

DBA Postgresql

Outlines Tech • Москва

До 300 000 ₽

Администратор прикладного ПО (PostgreSQL)

Гринатом

Привет, про структуру не совсем понятно. А если то поле что может повторяться просто сделать в базе уникальным? База сама не даст вставить повторы, если я правильно понял тему.

Answer 1 · 2020-08-15 08:19:51

Сергей Горностаев @sergey-gornostaev Куратор тега PostgreSQL

Седой и строгий

Вашу проблему решает upsert.

Ответ написан более трёх лет назад

Комментировать

Возможна ли групповая вставка с проверкой на уникальность в PostgreSql?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт