Как правильно работать с большой базой через C# + MsSQLL?

Question

tarasverq @tarasverq

Как правильно работать с большой базой через C# + MsSQLL?

Доброго времени суток!
Есть база, в которую надо заносить большой объем данных.
В сутки примерно 5 миллионов записей. Перед тем как добавить в базу данные, сначала проверяем что их там нет, иначе редактируем существующую запись.

Сначала использовал визуальный генератор из студии, покидал таблички, нашел примеры кода в интернете.
Было так:

usersTableAdapter usersTA = new usersTableAdapter();
var usersTable = new users.usersDataTable();
usersTA.Fill(usersTable);

Соответственно, вся база висела в оперативке, а потом обновлялась.
После того, как занесли в базу 10 миллионов записей, старт программы на этом этапе стал очень долгим, также забивалась вся оперативка и файл подкачки. Работа программы тоже была достаточно медленной. На обработку 5000 данных уходило около минуты.

После этого я подумал, что стоит переписать все это безобразие в хранимую процедуру. Переписал. В том же визуальном генераторе добавил хранимую процедуру, и выкинул все использования usersTable из кода. Использовал только TableAdapter. Оперативка перестала забиваться, но время обработки только увеличилось до минуты и сорока секунд на 5000 данных.

Текущий код хранимой процедуры:

IF (NOT EXISTS(SELECT * FROM [dbo].[users] WHERE [id] = @id)) 
BEGIN 
    INSERT INTO [dbo].[users]
           (...)
     VALUES
           (...);
    SET	@result = 1;
END 
ELSE 
BEGIN 
    UPDATE [dbo].[users]
   SET ...
 WHERE [id] = @id
	SET	@result = 0;
END

Мой вопрос: как сделать обработку данных максимально быстрой? Какие компоненты лучше использовать? Возложить ли проверку наличия данных на базу, или же сделать это как-то иначе?

Вопрос задан более трёх лет назад
6737 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

OTUS

C# Developer. Professional

6 месяцев

Далее
Ulearn.me

Основы программирования на примере C#. Часть 1

1 неделя

Далее
Ulearn.me

Основы программирования на примере C#. Часть 2

1 неделя

Далее

Решения вопроса 2

Комментировать

9 комментариев

tarasverq @tarasverq Автор вопроса

То бишь, забиваем DataTable идентификаторами, далее генерируем xml из всех данных, которых еще нет в базе, и передаем ее в хранимую процедуру? я правильно все понял? Если так, то без циклов в процедуре не обойтись. На сколько это медленно?

Написано более трёх лет назад
tarasverq @tarasverq Автор вопроса

Возможно, быстрее будет просто сгенерировать огромную строчку с кучей инсертов?

Написано более трёх лет назад
Иван Филатов @NYMEZIDE

tarasverq: "огромную строчку с кучей инсертов" - даже не думайте об этом!

Написано более трёх лет назад
tarasverq @tarasverq Автор вопроса

Иван Филатов: Понял. А из вариантов предложенных Вами, какой по идее должен работать быстрее? Если выбираем второй вариант, то вопрос: во временную таблицу данные как лучше забивать? Опять таки сгенерированным методом студии, или написать запрос самому? Или вообще как-то скопом данные во временную таблицу одним запросом можно? В базах вообще ничего не понимаю, пардон за глупые вопросы

Написано более трёх лет назад
Алексей Немиро @AlekseyNemiro

tarasverq:
Возможно, быстрее будет просто сгенерировать огромную строчку с кучей инсертов?

Нет. Основной тормоз - это журналирование. На каждый INSERT INTO будет создаваться запись в журнале и существенной разницы не будет, выполнять их пачкой или по одному.

Для вставки, самый быстрый вариант - это SqlBulkCopy. Пока я писал эти строчки, при помощи SqlBulkCopy. можно было много миллионов строк данных в базу добавить :-) Быстрее этого просто ничего нет.

То бишь, забиваем DataTable идентификаторами, далее генерируем xml из всех данных, которых еще нет в базе, и передаем ее в хранимую процедуру? я правильно все понял?

Да, но не все данные за раз, а небольшими порциями.
Размер порции будет зависеть от объемов данных и возможностей сервера. Нужно опытным путем подбирать. Можно начать с 10 000, если будет хорошо, увеличивать до 100 000. Если плохо - уменьшать. По времени выполнения запроса можно прикинуть сколько примерно займет полный цикл обновления.

За состоянием базы не забывать следить. Чем лучше будет себя чувствовать база, тем быстрее будет работать.

Если так, то без циклов в процедуре не обойтись.

Цикл на стороне C#. Одна процедура на стороне SQL Server, которая должна принимать XML и выполнять обновление. Дополнительные циклы в самой процедуре не нужны.

Написано более трёх лет назад
Иван Филатов @NYMEZIDE

tarasverq: что быстрее будет сказать сложно. надо проверить оба варианта. кода писать не много придется.

я не знаю в каком виде данные у вас изначально. Я предполагаю что данные уже лежат в каком-то экземпляре класса C#. Вообще сериализация в XML занимает достаточно мало времени. Но есть ограничения на длину параметра, который будет передаваться в хранимку. Ограничение можно обойти если сохранить все данные в XML файл, на сервере БД, - и передать в БД ссылку на этот файл.

Проще всего сделать загрузку данных во временную таблицу. Только сам SaveChanges нужно делать в самом конце. а не после каждой записи.

Написано более трёх лет назад
tarasverq @tarasverq Автор вопроса

Алексей Немиро: Цикл на стороне C#. Одна процедура на стороне SQL Server, которая должна принимать XML и выполнять обновление. Дополнительные циклы в самой процедуре не нужны.
А как быть, если у меня помимо основной таблицы есть еще дочерние, в которые записываются данные, которых может быть больше чем один экземпляр, которые принадлежат к одной записи из основной таблицы. Тут никак без циклов, если XML генерируем.
Да, но не все данные за раз, а небольшими порциями.
Размер порции будет зависеть от объемов данных и возможностей сервера. Нужно опытным путем подбирать. Можно начать с 10 000, если будет хорошо, увеличивать до 100 000. Если плохо - уменьшать. По времени выполнения запроса можно прикинуть сколько примерно займет полный цикл обновления.
Ну источник данных, откуда я получаю данные для забивания в базу отдает не более, чем 5к данных за раз. Думаю, этого будет достаточно.
За состоянием базы не забывать следить. Чем лучше будет себя чувствовать база, тем быстрее будет работать.
Как это сделать, где об этом почитать?

Написано более трёх лет назад
Алексей Немиро @AlekseyNemiro

tarasverq:
А как быть, если у меня помимо основной таблицы есть еще дочерние, в которые записываются данные, которых может быть больше чем один экземпляр, которые принадлежат к одной записи из основной таблицы. Тут никак без циклов, если XML генерируем.

Циклы нужны только на стороне C#. В хранимой процедуре циклы будут сильно все замедлять.
Я показал пример кода выше. Это можно использовать и для массового добавления, обновления и удаления данных в любом количестве таблиц, в рамках одной процедуры (запроса).

Для сохранения связей, проще всего, в качестве ключей использовать GUID. Их можно без проблем генерировать на стороне C#. Можно и числовые идентификаторы использовать, но это будет сложнее.

Что касается слежения за базой, то для этого нужен доступ к серверу и среда SQL Server Management Studio (можно и удаленно, но права могут быть ограничены). Как минимум стоит посмотреть на размер файлов базы и журналов, если кажутся большими, то следует сделать резервную копию и сжать базу.

Написано более трёх лет назад
tarasverq @tarasverq Автор вопроса

Алексей Немиро: Иван Филатов: Спасибо большое за ответы, буду пробовать!

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

+1 ещё

Простой
Почему не работает обратная привязка в Avalonia UI?
- 1 подписчик
- 22 окт.
- 88 просмотров
1

ответ
C#

+1 ещё

Средний
При каких входных данных моя программа работает неверно и как мне научиться самому это понимать? Как научиться искать ошибки?
- 2 подписчика
- 20 окт.
- 290 просмотров
3

ответа
C#

+2 ещё

Простой
Как универсализировать обычный ViewList в WPF C# XAML?
- 1 подписчик
- 20 окт.
- 58 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 164 просмотра
2

ответа
C#

+1 ещё

Простой
Как проверить, наследует ли объект в обобщённом методе?
- 1 подписчик
- 16 окт.
- 95 просмотров
1

ответ
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт.
- 211 просмотров
4

ответа
C#

+1 ещё

Средний
Пермач после авторизации [WTelegram,TDLib] как исправить?
- 1 подписчик
- 10 окт.
- 283 просмотра
0

ответов
C#

+1 ещё

Простой
Как в VSCode для C#-кода сгенерировать или посмотреть только структуру?
- 1 подписчик
- 01 окт.
- 131 просмотр
1

ответ
C#

+1 ещё

Простой
Почему VSCode панель Outline view не показывает классы и функции из C# кода?
- 1 подписчик
- 01 окт.
- 124 просмотра
1

ответ
C#

+1 ещё

Простой
Как в EF Core 9 произвести поиск совпадений на русском и без учета регистра?
- 1 подписчик
- 01 окт.
- 118 просмотров
0

ответов
Показать ещё Загружается…

Разработчик C#

Abc staff • Москва

До 220 000 ₽

Fullstack тестировщик C#

ITFB Group • Москва

от 200 000 до 300 000 ₽

C# WinForms .Net разработчик

Ляпунов и Резниченко • Санкт-Петербург

от 350 000 ₽

Answer 1 · 2015-02-18 13:55:01

Как вы передаете записи, которых 5000, в хранимку? по 1 шт ? Тогда время будет действительно увеличиваться.

Вариантов 2:
1. Конвертируйте все данные (все 5000 записей) в XML - передавайте XML в хранимку, которая сделает разбор XML и добавление/редактирование данных.

2. Сделайте загрузку всех записей (INSERT) во временную таблицу в БД. Затем запускаете хранимку, которая сделает логику добавления/обновления данных в основную таблицу, сравнивая две таблицы - основную и временную.

Answer 2 · 2015-02-18 14:05:59

Если есть возможность, лучше удалять данные полностью, а потом добавлять новые при помощи SqlBulkCopy.

Таким образом можно будет большие, я бы даже сказал огромные, объемы данных помещать в базу за короткий промежуток времени. Лучше всего не все сразу, а частями. Например, если 5 000 000 записей, то пачкой 10 000, или по 1 000. Зависит от объема данных и вероятности возникновения ошибок в процессе переноса. Если там простые данные, типа чисел, то можно их одним махом залить в базу. Если пачка будет слишком большой, серверу может памяти не хватить на её обработку.

Быстро удалить данные можно при помощи инструкции TRUNCATE TABLE [имя таблицы], но не всегда просто, зависит от связей.

Организовать обновление будет сложнее. Лучше всего выбирать пачку данных, обрабатывать и отправлять обратно на сервер. Размер пачки необходимо определять в зависимости от ресурсов сервера и объема данных в пачке.
Запросы при обновлении должны быть максимально простыми. Можно использовать XML, но тоже очень простой и небольших объемов, а в идеале обойтись без этого. Чем все будет проще, тем быстрее будет работать. Циклы и курсоры в запросах ~~стараться~~ не использовать.

Проверку наличия данных можно реализовать на стороне приложения, а не базы. Практика показывает, что это работает быстрее. Перед обновлением можно получить только идентификаторы данных (в DataTable). Далее проверять, есть необходимый идентификатор в DataTable или нет. Чтобы было проще, можно обновлять все данные, если идентификатор будет найден. А если нет, то добавлять данные. Это позволит не делать EXISTS на стороне SQL Server и обновление можно будет выполнить пачкой. Если использовать XML, то примерно так это может выглядеть:

-- временная таблица
-- в моем примере всего два поля id и value
CREATE TABLE #tmp
(
  num int primary key identity,
  id bigint,
  value nvarchar(max)
);

-- структура xml:
-- <items>
-- <item id="123">значение</item>
-- <item id="456">значение</item>
-- </items>

-- переносим xml в таблицу
INSERT INTO #tmp
SELECT 
ISNULL(n.value('@id', 'bigint'), 0), -- идентификатор существующих данных
n.value('.', 'nvarchar(max)') -- значение данных
FROM @xml.nodes('/items/item') AS node(n);

-- обновляем записи в таблице [table], у которых есть идентификатор
UPDATE a SET value = b.value
FROM table AS a 
INNER JOIN #tmp AS b ON a.id = b.id
WHERE b.id <> 0;

-- добавляем записи, у которых нет идентификатора
INSERT INTO table (value)
SELECT value FROM #tmp AS b WHERE b.id = 0;

-- удаляем временную таблицу
DROP TABLE #tmp;

Если есть возможность, лучше обойтись без XML, JOIN-ов и всяких ISNULL.

Базу необходимо правильно настроить. Добавить индексы, где будет уместно. Но не переборщить и учитывать, что они (индексы) могут фрагментироваться и сильно замедлять работу базы. Про фрагментацию самой базы, тоже не стоит забывать. Если будете удалять большие объемы данных, то не забывайте выполнять резервное копирование и сжатие базы.

Соединения с базой лучше использовать одноразовые. Т.е. открыл, выполнил запрос, закрыл и так далее. Если использовать одно соединение, то со временем скорость выполнения запросов будет существенно снижаться.

Универсального решения подобных задач нет, но это примерно то, от чего можно отталкиваться.

Answer 3 · 2015-02-18 13:57:35

Зачем вытягивать все данные в память?
Получите сначала список уникальных ключей записей (либо набор полей по которым записи определяются уникальными) и потом вытягивайте запись по-одной и обрабатывайте.

Это синхронизацию данных вы пытаетесь выполнить?
То есть нужно просто перелить данные по коду ID?
Если так то нужно просто запоминать на каком ID закончилась прошлая загрузка и продолжать с него далее.

Как правильно работать с большой базой через C# + MsSQLL?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт