Множестов объектов одним запросом (insert/update)?

Question

Alexander @syschel

freelance/python/django/backend

Множестов объектов одним запросом (insert/update)?

Есть магазин. Есть товары приходящие в CSV файле.
Сейчас перебираю файл построчно. Строка = товар.
Если товара нет в БД, то добавляю. Если есть, то обновляю цену.
В итоге получаю кучу запросов на добавление, обновление. Хотя по сути, данные статичны и можно складировать в список ,а потом массово одним запросом скормить в БД. Как это сделать методами ОРМ джанги?

Цель:
Меньше обращений к БД, быстрее обрабатывается файл, меньше нагрузка на железо

Сейчас:

file_url = './../file/items.csv'
with open(file_url, 'rb') as csvfile: # перебираем строки
    spamreader = csv.reader(csvfile, delimiter='|', quoting=csv.QUOTE_MINIMAL)
    for row in spamreader: # перебираем ячейки в строке
        id_item = row['item'].replace("'", "")
        item = Item.objects.filter(id_item=id_item)
        if not item:
            item = Item(id_item=id_item)
            item.name = row['name'].replace("'", "")
            ....
        else:
            item = item[0]
            item.price = row['price'].replace("'", "")
        item.save()

Как видим, пробегая файл, каждый товар делает запрос в БД на получение товара, сохранение/обновление.

Часть логики моей, как вижу
К примеру проверку можно убрать, вытянув список всех товаров предварительно

all_item = Item.objects.all().values_list('id_item', flat=True)

И тогда уже завести два списка, куда сохранять товары предварительно, пробегая файл. Тупо проверяя есть ли значение в all_item

file_url = './../file/items.csv'
add_item = []
upd_item = []
with open(file_url, 'rb') as csvfile:
    spamreader = csv.reader(csvfile, delimiter='|', quoting=csv.QUOTE_MINIMAL)
    for row in spamreader:
        id_item = row['id_item'].replace("'", "")
        if id_item in all_item: # Та самая проверка
            upd_item.append({'id_item': id_item, 'price': row['price'].replace("'", "")})
        else:
            add_item.append({'id_item': id_item, 'name': row['name'].replace("'", "")})
# Вот тут уже то самое добавление / обновление
# Item(add_item).save() or Item(upd_item).save()

Интересует как именно "правильно" собрать эти списки и как потом одним/двумя запросами скормить в базу. Всё методами ОРМ джанги, а не кастылями с прямыми запросами в БД.

З.Ы. В магазин приходит порядка 10-40к товаров за день на добавление/изменение. Иногда, бывает и под 100к товаров, когда новый поставщик добавляется. В магазине за пару месяцев в БД может висеть под 1кк товаров.

Вопрос задан более трёх лет назад
925 просмотров

Комментировать

Подписаться 7 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Тестировщик на Python

9 месяцев

Далее
Академия Eduson

Python-разработчик

9 месяцев

Далее
Merion Academy

Базы данных с нуля

2 месяца

Далее

Решения вопроса 2

Комментировать

6 комментариев

Alexander @syschel Автор вопроса

За bulk_create, спамибо. Совсем забыл про этот в джанге. А вот вариант с созданием новой таблицы - бредово. Ибо количество товаров в базе растёт. Старые не удаляются, а только помечаются как "удалённые" и отключаются на отображение в некоторых местах, но на сайте отображаются. В итоге каждый день добавляется сколько-то новых товаров, у скольких-то меняется цена, какие-то помечаются как "удалённые". Сайт за менее полу года набрал около 1кк товаров в базе, активных (отображаемых) около 80к. В обновлении может прийти всего 10к товаров на добавление/обновление/удаление. Вы же предлагаете 9,990,000 записей клонировать, ради добавления 10,000.

Написано более трёх лет назад
un1t @un1t

Syschel: ну во первых я не знал сколько у вас там записей добавляются удаляются. А зачем все записи клонировать, ставляем только записи для товаров в наличии, т.е. будет у вас табличка в 10 тыс или соклько там у вас товаров, обновляться каждый день. У меня так 6 миллионов товаров каждый день обновляются.

Написано более трёх лет назад
Alexander @syschel Автор вопроса

un1t: А про "в наличии" в теме вопроса вообще не говорится. Фигурирует только два критерия "создать новый товар" и "обновить цену старых". :-)

Написано более трёх лет назад
un1t @un1t

Syschel: ну цену можно вынести в отдльную таблицу, я же не знаю что тебе нужно обновлять. Но называть решение бредом, это как-то странно, предложи лучше вариант. Если 10 тыс обновить надо всего, то тут вообще проблемы нет, а если пару лямов, то есть.

Написано более трёх лет назад
Alexander @syschel Автор вопроса

un1t: За бред извиняюсь, погорячился. Цену выносить как и скажем название - не рационально. Ибо это основной параметр товара в магазине, который почти всегда нужно выводить. А если выносить в отдельную таблицу, это лишние запросы, пускай даже джоинами. Да и добавление/обновление усложняется из-за работы с двумя таблицами.

10к обновить это проблема. Сейчас просто пробег файла на 10к строк (товаров) с проверкой есть ли в базе, занимает 25 секунд. А вот попытка обновить только цену у 10к товаров пробегая файл, выходит за 10 минут. И это на локалке с 32гб оперативки, ssd и 4 ядрами i5, а на ВПСе где ресурсы не такие, вообще беда.

Написано более трёх лет назад
un1t @un1t

Syschel: что-то долго, 10 минут это уже с учетом того что засунули обновление внутрь транзации?

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 3

3 комментария

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

+1 ещё

Простой
Как правильно реализовать структуру таблиц продукт и цены продуктов?
- 1 подписчик
- 20 нояб.
- 178 просмотров
2

ответа
Django

+1 ещё

Простой
Celery worker отказано в доступе?
- 1 подписчик
- 12 нояб.
- 94 просмотра
0

ответов
MySQL

Простой
Почему SQL-запрос на MacOS (M2) исполняется медленнее, чем на shared-хостинге?
- 1 подписчик
- 08 нояб.
- 210 просмотров
1

ответ
Django

Простой
Почему Django не может найти мое приложение?
- 1 подписчик
- 05 нояб.
- 120 просмотров
1

ответ
MySQL

Средний
Почему после импорта базы из .sql файлов таблицу с 13Гб раздуло до 55Гб?
- 4 подписчика
- 29 окт.
- 606 просмотров
1

ответ
Django

Простой
Как передать image в форму Django для правильной прохождении валидации?
- 1 подписчик
- 22 окт.
- 80 просмотров
1

ответ
Django

Простой
Почему фикстура создания user ломает тест?
- 1 подписчик
- 20 окт.
- 119 просмотров
0

ответов
Django

Простой
Как опубликовать Django приложение, чтобы работали картинки .jpg?
- 1 подписчик
- 17 окт.
- 101 просмотр
2

ответа
Django

Простой
Почему django считает is_stuff неожиданным аргументом?
- 1 подписчик
- 17 окт.
- 73 просмотра
1

ответ
Django

Простой
Не могу получить данные из связаной модели ManyToMany rel?
- 1 подписчик
- 09 окт.
- 95 просмотров
1

ответ
Показать ещё Загружается…

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Сетевой инженер, OpenWrt, Linux

Ростовский завод электроники • Санкт-Петербург

от 20 000 до 60 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 350 000 ₽

Answer 1 · 2015-07-24 13:35:04

Цель:
Меньше обращений к БД, быстрее обрабатывается файл, меньше нагрузка на железо

напротив - тебе нужно максимум передать в бд пусть сама разруливает

В постгресе есть механизм транзакции. Грубо говоря, внутри транзакции коммит проходит только после твоей четкой команды.
Что дает: индекс не пересобирается, пока ты внутри транзакции твои данные не видны для запросов за пределами транзакции (при факапе делаешь роллбек и как ничего и не было)

Те делаешь https://docs.djangoproject.com/en/1.8/topics/db/tr...

@transaction.atomic
def do_stuff():
    # This code executes inside a transaction.

и в функции делаешь get_or_create
Делать список на 40к позиций не стоит - работай с каждой строчкой-товаром отдельно
40к селектов >>> список из 40k

Все проверки и чистку данных из цсв вынеси в отдельные функции, чтоб у тебя основная функция выглядела просто как набор вызовов

Очень-очень советую проводить добавление в модель через ModelForm с валидацией - мало ли какой цсв тебе дадут
Не используй евал и/или исполнение чего-либо из таких файлов
Чисти от js дескрипшены и тайтлы и вообще все что ты можешь в шаблоне случайно показать без фильтрации ака {{ foo|safe }}

Помести код в managed commands

используй профайлер и time ./manage.py do_stuff

Answer 2 · 2015-07-25 19:38:43

Вставить много новых товаров не проблема, хоть милион.
Предварительно выбираем id уже существующих в базе товаров в set.
Затем используй bulk_create, кнечно не миллион сразу вставляй, а пачками по 1000-10000 за раз.
А вот обновить 40 тыс товаров в mysql/postgres удобных механизмов нет.
Если нам надо обновлять не всю информацию, а скажем только наличиие то можно сделать так.
Создаешь отдельную таблицу про наличие товара, туда вставляешь через bulk_create. После того как все вставил, старую таблицу грохаешь, а новую переимновываешь в старую.

Answer 3 · 2015-07-30 18:01:42

Про парсинг csv: смущает дергание вручную replace - может, вам нужно указать quotechar, или написать свой Dialect?
По поводу create и update - сейчас в джанге есть чудесный update_or_create.

Про ваше решение - обязательно заверните all_item в простейший set, чтобы вхождение искалось моментально, а не линейно от числа товаров! В вашем случае это просто ValuesQuerySet -> list!

Answer 4 · 2015-07-24 12:05:06

Roman K @deliro

Транзакцией.

Ответ написан более трёх лет назад

Комментировать

Answer 5 · 2015-07-24 12:18:49

Как мне это видится:
1) Одним запросом получаешь товары из базы
2) Парсишь прайс
3) Сравниваешь полученные на шаге 1 и 2 списки
4) На их основе формируешь списки для добавления и обновления
5) С помощью bulk_create или create создаешь товары, c помощью update обновляешь
6) ...
7) Profit
То есть по сути как вы и написали (если я правильно понял)

Множестов объектов одним запросом (insert/update)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт