Как ускорить импорт из csv в бд?

Question

vikholodov @vikholodov

Django

Как ускорить импорт из csv в бд?

Имеем django, postgresql и 15 миллионов товаров в файле csv, все это импортируется в 1 поток.
Примерно так это делаю:

with open('new_products.csv', 'r', encoding='utf-8') as csvfile:
...
for row in rows:
    product = Product()
    product.price = row[0]
    product.shipping = row[1]
    product.save()

и так далее. Возможно есть какой-то способ ускорить этот процесс в несколько раз?

Вопрос задан более трёх лет назад
432 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

ProductStar

Django + Python разработка

2 месяца

Далее
Skillbox

Python-фреймворк Django

3 месяца

Далее
Бруноям

Python-фреймворк Django

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

neatsoft @neatsoft

items = (i for i in items if i) можно поместить в сам grouper:

def grouper(iterable, n):
    args = [iter(iterable)] * n
    groups = itertools.zip_longest(*args, fillvalue=None)
    for group in groups:
        yield (item for item in group if item)

Написано более трёх лет назад

vikholodov @vikholodov Автор вопроса
Спасибо за очень подробный ответ, сейчас пытаюсь реализовать, но не могу понять как добавить m2m поле. Раньше я сохранял объект и добавлял ему
product.category_id.add(Category.objects.get(catId=str(category_id)))
Написано более трёх лет назад
neatsoft @neatsoft
vikholodov,
Метод add добавляет строку в таблицу, хранящую m2m связи. К этой таблице можно обращаться с помощью through. Например, если есть модель Category и модель Product с m2m полем categories, то к эта таблица будет доступна через Product.categories.through. Но нужно учитывать, что на момент добавления строк в m2m таблицу должны быть известны и category_id, и product_id.

При использовании второго варианта ускорения (оборачивание в транзакцию) ничего дополнительно предпринимать не нужно, можно применять и add, и пример из моего ответа.

Если используется Django >1.10 и PostgreSQL, можно задействовать и первое решение, т.к. bulk_update в такой конфигурации возвращает список айдишников созданных объектов. Нужно просто сохранять в отдельном списке категории, в которые должен оказаться включен каждый из продуктов, и ещё одним вызовом bulk_create создавать строки в таблице с m2m связями:
product_category_ids = [] # create products products = [] for item in items: product = Product( price=item[0], shipping=item[1], ) products.append(product) category_ids = ... # get category ids from the input data product_category_ids.append(category_ids) product_ids = Product.objects.bulk_create(products) # create m2m relations between products and categories product_categories = [] for product_id, category_ids in zip(product_ids, product_category_ids): for category_id in category_ids: product_category = Product.categories.through( product_id=product_id, category_id=category_id, ) product_categories.append(product_category) Product.categories.through.objects.bulk_create(product_categories)
Написано более трёх лет назад
vikholodov @vikholodov Автор вопроса
Столкнулся с ошибкой:
django.db.utils.IntegrityError: duplicate key value violates unique constraint "core_product_sku_key" DETAIL: Key (sku)=(6701154907) already exists.

Пробовал уже тысячу проверок различных делать (наличие в базе, наличие в списке products), не помогает. + фактически этого самого ключа нет в базе! 2.5 млн товаров добавил и споткнулся вот на этой позиции
Написано более трёх лет назад
neatsoft @neatsoft

vikholodov, Несколько продуктов с одинаковым ключом в исходном списке?
Либо фильтровать (используя в качестве фильтра не только строки из базы, но и из списка - если есть несколько продуктов с одинаковым айдишником, добавляться должен только один из них), либо заменить create на update_or_create / get_or_create.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Django

+1 ещё

Простой
Celery worker отказано в доступе?
- 1 подписчик
- 12 нояб.
- 91 просмотр
0

ответов
Django

Простой
Почему Django не может найти мое приложение?
- 1 подписчик
- 05 нояб.
- 119 просмотров
1

ответ
Django

Простой
Как передать image в форму Django для правильной прохождении валидации?
- 1 подписчик
- 22 окт.
- 78 просмотров
1

ответ
Django

Простой
Почему фикстура создания user ломает тест?
- 1 подписчик
- 20 окт.
- 119 просмотров
0

ответов
Django

Простой
Как опубликовать Django приложение, чтобы работали картинки .jpg?
- 1 подписчик
- 17 окт.
- 101 просмотр
2

ответа
Django

Простой
Почему django считает is_stuff неожиданным аргументом?
- 1 подписчик
- 17 окт.
- 73 просмотра
1

ответ
Django

Простой
Не могу получить данные из связаной модели ManyToMany rel?
- 1 подписчик
- 09 окт.
- 94 просмотра
1

ответ
Django

Простой
Почему нельзя обновить ImageField с помощью update?
- 1 подписчик
- 06 окт.
- 74 просмотра
1

ответ
Django

Простой
Почему не отображается изображение Django?
- 1 подписчик
- 03 окт.
- 100 просмотров
0

ответов
Django

Простой
Есть ли способ автоматически обрезать media файлы пользователей в Django?
- 1 подписчик
- 02 окт.
- 106 просмотров
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Engineer

Kotify

от 3 000 до 5 000 €

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

Answer 1 · 2018-02-08 20:36:27

1. Итерировать строки по несколько сотен штук, и создавать соответствующие им объекты единым вызовом к bulk_create:

import itertools

def grouper(iterable, n, fillvalue=None):
    args = [iter(iterable)] * n
    return itertools.zip_longest(*args, fillvalue=fillvalue)

...

limit = 250

for index, items in enumerate(grouper(rows, limit)):
    items = (i for i in items if i) # remove empty rows added by grouper

    products = []

    for item in items:
        product = Product(
            price=item[0],
            shipping=item[1],
        )
        products.append(product)

    Product.objects.bulk_create(products)

Все 15 миллионов объектов разом создавать не стоит - ничего хорошего из этого не выйдет.

2. Если необходимо создавать зависимые объекты, использовать транзакции:

from django.db import transaction

...

limit = 250

for index, items in enumerate(grouper(rows, limit)):
    with transaction.atomic():
        for item in (i for i in items if i):
            product = Product.objects.create(
                price=item[0],
                shipping=item[1],
            )
            # product can be used there to create another objects, e.g.:
            for color in item[2].split(','):
                ProductColor.objects.create(
                    product=product,
                    color=color,
                )

Транзакции, в данном случае, обеспечивают существенный прирост производительности.

3. Запустить несколько процессов, каждому из которых передать в параметрах с какой позиции он должен начать, и сколько строк обработать. Чтобы дочерним процессам не пришлось читать весь файл с самого начала, позицию лучше передавать не номером строки, а смещением.

4. Скомбинировать 3 и 1 или 3 и 2.

5. Модели в джанго - это просто таблицы в базе данных. Можно добавлять строки с помощью SQL запросов из отдельного скрипта на Python или Go.

Как ускорить импорт из csv в бд?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт