Вставка в бд огромного объема данных, как лучше сделать?

Question

Antoxa Zimm @AntoXa_ZiMM

I just write code and do not know English

SQL Server

Вставка в бд огромного объема данных, как лучше сделать?

Есть проблема с вставкой в бд огромного объёма данных, а именно:
1 данные парятся из xml файлов разного размера (от мегабайта до 50+ гигабайт) по определенным правилам
2 каждый файл обрабатывается в основном потоке(если они небольшие -- запускаются параллельно несколько)
3 после того как файл распарсили -- конкатенацией строк пишем SQL скрипт типа:
insert into schema.table values... по 1000 строк за запрос для каждого файла получается один или несколько скриптов
4 в таблицах бд вообще нету индексов или primary key, т.е. поиск дубликатов в момент вставки каждой строки занимает огромное кол-во времени (я пробовал, на это больно смотреть)
5 после того как все данные вставились начинается удаление дубликатов по двум столбцам (один должен быть уникальным в рамках таблицы, второй типа timestamp время начало обработки пакета данных) -- создаю временную таблицу из двух столбцов, записываю в неё актуальные данные, все, что не в ней -- вытираю из бд
6 изменение бд, транзакции запрещены т.к. с бд одновременно работают несколько приложений

Как реализовать это быстро и качественно, сил уже нету, есть идеи, но целостного и стабильного решения нету, так чтоб и бд не сломать(скриптов много создаётся, мало ли что там нагнется в какой момент) и работало все не дни, а максимально быстро и желательно в минутах?

ИЗМЕНЕНИЕ ИСХОДНОЙ ЗАДАЧИ:
5 Уникальность записи определяется 2мя столбцами в БД, один из них хэш значения в исходном xml, второй -- время начала обработки данных, двух строк с этими одинаковыми полями в таблице быть не должно
6 Добавление индексов, ключей и транзакции по прежнему запрещены, но создавать временные таблицы с любыми наборами индексов и полей можно (и это просто отлично)

РЕШЕНИЕ
Т.к. несколько приложений могут работать с БД (могут быть реплики разрабатываемого приложения или совершенно другое приложение может работать с интересующей нас базой) по прежнему не можем использовать транзакции, дописывать в имеющиеся в БД таблицы индексы или хитрые ключи по нескольким столбцам.
Можно создать временные таблицы в БД, влить в них абсолютно все данные из xml, потом дописать индексы для временных таблиц, потереть дубликаты, слить данные в основные таблицы, удалить временные таблицы, повторять для каждого нового пакета данных

Вопрос задан более трёх лет назад
369 просмотров

7 комментариев

Подписаться 1 Оценить 7 комментариев

Александр Ананьев @SaNNy32

А почему нет первичных ключей и индексов?

Написано более трёх лет назад
Antoxa Zimm @AntoXa_ZiMM Автор вопроса

Потому что заказчик. Извиняюсь за тупой ответ, но увы -- заказчик использует много разных бд для хранения и обработки данных на разных этапах работы системы и это самая первая из них, туда просто вливаются данные как есть, но обязательно без дубликатов, потом он их забирает в другую бд (и, думаю, там уже начинаются ключи, индексы, один комоним и т.д.)

Написано более трёх лет назад
Александр Ананьев @SaNNy32

Antoxa Zimm: А нельзя создать свою бд или таблицу в бд с индексами, вставлять туда данные, а потом перенести в нужную бд/таблицу?

Написано более трёх лет назад
Александр Ананьев @SaNNy32

Antoxa Zimm: Ну или пропатчить таблицу в бд заказчика добавив индекс и первичный ключ?

Написано более трёх лет назад
Antoxa Zimm @AntoXa_ZiMM Автор вопроса

Пропатчить не вариант т.к. доступа к проекту бд нету, да и накажут меня за это больно, создать свои временные pk не получится т.к. не уверен в консистентности данных (может дубликаты кто-то другой вставил уже), индексы временно вставлять в основные таблицы тоже не вариант т..к. при построении блокируют таблицу/бд пока строятся

Написано более трёх лет назад
abcyu @abcyu

SaNNy32:
Это глупо.

Нужно все вставить, а уже потом индексировать. Если БД до этого была пустая, то выигрыш в скорости - ошеломительный.

Написано более трёх лет назад
Antoxa Zimm @AntoXa_ZiMM Автор вопроса

SaNNy32: это не глупо, это такая архитектура БД (возможно кривовата, возможно требования прикладной части, а скорее всего оба пункта) и невозможность её изменить. БД с данными и их там миллионы строк, за один цикл обработки стандартного пакета данных только в одну таблицу из 50 вставляется около 243 000 строк.

Индексировать не вариант т.к. исходная таблица без индексов и должна такой остаться, если пересоздавать индексы при каждой обработке данных -- время этой операции будет увеличиваться с каждым циклом обработки данных, транзакции использовать запрещено

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Merion Academy

Базы данных с нуля

2 месяца

Далее
OTUS

SQL для разработчиков и аналитиков

3 месяца

Далее
Сетевая Академия ЛАНИТ

Администрирование баз данных SQL Server

1 неделя

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 2 подписчика
- 11 нояб.
- 206 просмотров
1

ответ
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб.
- 186 просмотров
2

ответа
Системное администрирование

+3 ещё

Простой
Не удается подключить сервер к консоли администрирования 1С. В чем может быть проблема?
- 3 подписчика
- 26 сент.
- 246 просмотров
3

ответа
SQL Server

+2 ещё

Средний
Может ли тормозить 1С из-за отключенного кэширования записи на диск на сервере с 1С+MSSQL?
- 5 подписчиков
- 20 авг.
- 497 просмотров
3

ответа
1С

+1 ещё

Средний
Как правильно протестировать регламентные задания для обслуживания баз данный MSSQL?
- 2 подписчика
- 20 авг.
- 215 просмотров
1

ответ
SQL Server

Средний
Возможно ли в UPDATE «видеть» результат обновления предыдущих строк?
- 2 подписчика
- 01 авг.
- 137 просмотров
1

ответ
SQL Server

+2 ещё

Простой
Как создать связанный Oracle сервер с Ms SQL server?
- 1 подписчик
- 05 июн.
- 129 просмотров
0

ответов
SQL Server

+1 ещё

Простой
Как создать XML определенного формата из таблицы с помощью FOR XML PATH?
- 2 подписчика
- 14 мая
- 90 просмотров
0

ответов
1С

+1 ещё

Простой
Как обойти ошибку создания уникального индекса?
- 1 подписчик
- 06 мая
- 181 просмотр
4

ответа
PHP

+1 ещё

Простой
Как добавить данные в бд с помощью php sqlsrv?
- 1 подписчик
- 18 апр.
- 188 просмотров
2

ответа
Показать ещё Загружается…

Product manager

Synapse AI • Москва

от 150 000 ₽

Database Administrator / DBA

Playerok

от 200 000 ₽

Senior Backend Developer

Playerok

от 400 000 ₽

А почему нет первичных ключей и индексов?
Потому что заказчик. Извиняюсь за тупой ответ, но увы -- заказчик использует много разных бд для хранения и обработки данных на разных этапах работы системы и это самая первая из них, туда просто вливаются данные как есть, но обязательно без дубликатов, потом он их забирает в другую бд (и, думаю, там уже начинаются ключи, индексы, один комоним и т.д.)
Antoxa Zimm: А нельзя создать свою бд или таблицу в бд с индексами, вставлять туда данные, а потом перенести в нужную бд/таблицу?
Antoxa Zimm: Ну или пропатчить таблицу в бд заказчика добавив индекс и первичный ключ?
Пропатчить не вариант т.к. доступа к проекту бд нету, да и накажут меня за это больно, создать свои временные pk не получится т.к. не уверен в консистентности данных (может дубликаты кто-то другой вставил уже), индексы временно вставлять в основные таблицы тоже не вариант т..к. при построении блокируют таблицу/бд пока строятся
SaNNy32:
Это глупо.

Нужно все вставить, а уже потом индексировать. Если БД до этого была пустая, то выигрыш в скорости - ошеломительный.
SaNNy32: это не глупо, это такая архитектура БД (возможно кривовата, возможно требования прикладной части, а скорее всего оба пункта) и невозможность её изменить. БД с данными и их там миллионы строк, за один цикл обработки стандартного пакета данных только в одну таблицу из 50 вставляется около 243 000 строк.

Индексировать не вариант т.к. исходная таблица без индексов и должна такой остаться, если пересоздавать индексы при каждой обработке данных -- время этой операции будет увеличиваться с каждым циклом обработки данных, транзакции использовать запрещено

Вставка в бд огромного объема данных, как лучше сделать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт