Оптимизация objects.all() для огромной БД. Как получить все и не зависнуть на N минут?

Question

Александр Втюрин @reapersuper14

Python-программист-студент. Учусь делать круто.

Оптимизация objects.all() для огромной БД. Как получить все и не зависнуть на N минут?

Доброго времени суток, друзья.

Есть база данных PostgreSQL с двумя таблицами. В первой - около 3 миллионов записей (ссылки в интернет). Так уж вышло, что для получения второй таблицы, нужно пройтись по всем строкам из первой таблицы, взять ссылку, сделать некие манипуляции в интернете и записать результат (для каждой записи в первой таблице соответственно 200+ записей во второй).

Суть проблемы:
Самый очевидный подход:

for i in Item.objects.all():
    doSomething(i)

На тестовых данных в 10 тысяч записей этот подход работал на ура - данные очень быстро оказывались в моих руках, но на реальных данных компьютер просто подвисает на неопределенный срок и мне не остается ничего, кроме нажатия на кнопку reset.

Читал на Хабре, что этот подход абсолютно неверный, т.к. он создает N+1 запросов к базе данных.
Исправил вот так:

items = list(Item.objects.all())
for i in items:
    doSomething(i)

Но поведение компьютера не изменилось - пришлось опять ресетить.

Прошу, подскажите, пожалуйста, выход из ситуации. Возможно, можно получать данные из БД пачками меньших размеров (придется переписывать много кода, если это - единственный вариант)? Или, возможно, стоит попробовать вручную составить запрос к БД, не пользуясь Django ORM?

Возможно, я что-то кардинально делаю не так, но мне необходимо хранить все эти данные на сервере, чтобы пользователи имели к ним максимально быстрый доступ.

Вопрос задан более трёх лет назад
723 просмотра

2 комментария

Подписаться 2 Оценить 2 комментария

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

Простой
Как подсчитать данные для каждого узла(включая вложения) дерева?
- 1 подписчик
- 15 авг.
- 60 просмотров
0

ответов
Django

Простой
Как в шаблоне выделить несколько экземпляров модели чекбоксами и по нажатию на кнопку получить список выделенных экземпляров?
- 1 подписчик
- 13 авг.
- 64 просмотра
1

ответ
PostgreSQL

Простой
PostgreSQL, как осуществить поиск по вложенному json?
- 1 подписчик
- 11 авг.
- 91 просмотр
2

ответа
PostgreSQL

Простой
Есть ли способ изменять переменную в запросе?
- 1 подписчик
- 11 авг.
- 111 просмотров
0

ответов
PostgreSQL

Простой
Как правильно реализовать перевод данных из STG в ODS при помощи SCD2 в PostgreSQL?
- 1 подписчик
- 11 авг.
- 44 просмотра
0

ответов
PostgreSQL

Простой
Почему возникает ошибка «authentication method 10 not supported»?
- 1 подписчик
- 31 июл.
- 85 просмотров
0

ответов
Linux

+2 ещё

Простой
Postgres Docker: Странные временные файлы в папке overlay2?
- 1 подписчик
- 23 июл.
- 239 просмотров
1

ответ
PostgreSQL

Простой
Почему не удается авторизоваться под юзером postgres?
- 1 подписчик
- 22 июл.
- 145 просмотров
3

ответа
PostgreSQL

Простой
Как подружить анализатор PostgreSQL со своим составным типом?
- 2 подписчика
- 19 июл.
- 1274 просмотра
1

ответ
PostgreSQL

Простой
Как отсортировать дни рождения от ближайшего?
- 1 подписчик
- 16 июл.
- 148 просмотров
1

ответ
Показать ещё Загружается…

Разработчик Django/Django Rest Framework

Qortex

от 80 000 до 100 000 ₽

Backend Python/Django

Borderless360

от 3 000 до 6 000 $

Ведущий питонист

ФАНС

от 250 000 до 350 000 ₽

посмеялся с того, как вы исправили.

Answer 1 · 2015-11-17 16:33:17

При итерировании кверисет целиком загружается в память, отсюда и проблема. Решение, которое предложил Александр Втюрин, хоть и несколько топорное, будет работать: идея там верная. Несколько лет тому эта проблема стояла очень остро, поэтому даже появился широко известный в узких кругах Сниппет #1949, сделанный именно на этом принципе.

Но начиная с Django версии, если не ошибаюсь, 1.4, появилось штатное средство, предназначенное для аналогичных целей — метод iterator() у кверисета.

Answer 2 · 2015-11-17 14:13:23

есть подозрение, что дело не в .all(), а в doSomething(3кк раз залезть в инет и сохранить что-то в базу). для проверки можете выполнить такой код:

for i, item in enumerate(Item.objects.all()):
    x = i + i

если проблема не в .all(), то должно отработать довольно быстро. В этом случае займитесь оптимизацией doSomething, посмотрите в сторону celery, для джанги небось и батарейки есть, nope, уже из коробки поддерживается.

Answer 3 · 2015-11-17 15:10:38

Загуглил такое решение:

while True:
    items = Item.objects.filter(pk__gte=i*1000, pk__lt=(i+1)*1000)
    try:
        for j in items:
            doSomething(j)
    except Item.DoesNotExist:
        break

    i += 1

Как и всегда, стоило правильно составить поисковый запрос и готово.

Оптимизация objects.all() для огромной БД. Как получить все и не зависнуть на N минут?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт