Django и таблицы с очень большим количеством данных?

Question

Владимир Куц @fox_12

Расставляю биты, управляю заряженными частицами

Django

Django и таблицы с очень большим количеством данных?

Есть БД на postgresql. Есть Django скрипт который собирает данные.
Проблема в том что данных ОЧЕНЬ много. Таблица, с которой необходимо оперировать, содержит, по скромным подсчетам, - от сотен миллионов строк. И похоже - оперировать придется уже миллиардами.
Все частые запросы, - то что можно было закешировать, - я загнал в кеш redis.
Файлы для парсера - загоняются целиком в память и там делается парсинг для ускорения, поскольку файлы грузятся из сравнительно медленного соединения.
Парсеры с помощью celery грузят данные в несколько потоков.
Проблема в том, что на десятках миллионов запросы к админке уже начали отваливаться по таймаутам.
Скорость сбора данных - также оставляет желать лучшего. За полутора суток - собралось десятки миллионов данных - а должны собраться сотни.
Какие еще подходы можно применить для ускорения работы с большим объемом данных?

Структура таблицы с самым большим количеством данных имеет вид:

class CDRData(models.Model):
    start_time_of_date = models.DateTimeField(null=True, blank=True)
    origination_source_number = models.ForeignKey(ANIData, null=True, blank=True, verbose_name='ANI')
    origination_destination_number = models.ForeignKey(DNISData, null=True, blank=True, verbose_name='DNIS')
    routing_digts = models.CharField(max_length=32, null=True, blank=True)
    origination_host = models.GenericIPAddressField(null=True, blank=True, verbose_name='TERMINATION_IP')
    termination_host = models.GenericIPAddressField(null=True, blank=True)
    termination_media_ip = models.ForeignKey(MediaIP, null=True, blank=True, verbose_name='TERMINATION_MEDIA_IP')
    egress_response = models.ForeignKey(EgressResponse, null=True, blank=True,
                                        related_name='d_egress_resp')
    orig_term_release = models.CharField(max_length=32, null=True, blank=True)
    egress_code = models.CharField(max_length=64, null=True, blank=True)
    pdd = models.IntegerField(null=True, blank=True)
    egress_call_duration = models.IntegerField(null=True, blank=True)
    cdr_file = models.ForeignKey('ParsedFile', null=True, blank=True)

    def __str__(self):
        return '{} - {}'.format(str(self.origination_host), str(self.termination_host))

    class Meta:
        verbose_name = 'CDR data'
        verbose_name_plural = 'CDR data'

Вопрос задан более трёх лет назад
2276 просмотров

3 комментария

Подписаться 6 Средний 3 комментария

Сергей Горностаев @sergey-gornostaev Куратор тега Django

Какая структура данных? Есть ли взаимосвязи? По таймаутам отваливаются запросы к спискам моделей или при отображении форм, содержащих отношения? Голый SQL запрос из psql выполняется быстро или тоже медленно?

Написано более трёх лет назад
Владимир Куц @fox_12 Автор вопроса, куратор тега Django

Формат таблицы дополнил в вопрос.
Взаимосвязи - есть несколько.
За primary_key хотел взять start_time_of_date. Но не получилось - оказывается даже там есть дубли разных запросов с той же меткой времени.
Прямые запросы к БД - попробую...

Написано более трёх лет назад
Владимир Куц @fox_12 Автор вопроса, куратор тега Django

> 1. Определять медленные запросы, выяснять в чем их проблема - индексы, уперлись
> в скорость диска или процессор и т.п. Возможно django orm для каких-либо запросов
> генерирует неоптимальный sql - оптимизировать его и делать raw запросы.

Это попробуем - но насвкидку там простые вставки/выборки. Ничего сложного не должно быть.

> 2. Общее профилирование - определение узких мест системы, может тормозит не база, а какие-либо вычисления.

Парсер csv. Вычисления никакие не проделываются на этом этапе. Для ускорения запроса файл сразу вычитывается полностью в память, там уже парсится. Сами файлы сравнительно небольшие - но их ОЧЕНЬ много.

> 3. Увеличение мощности сервера или разделение базы.

Пока попробовать обойтись с имеющимся железом. Навскидку пока больше проблема программная.

> 4. Конкретно по админке, например есть тормоза при работе с большими таблица из-за
> вычисления count(*) - переписать paginator

Это попробую - но пока сомневаюсь что выйдет оптимальнее чем это делает сама Django ORM.

> 5. Проверить на наличие повторяющихся вычислений - делать их как можно меньше, записывать в кеш, денормализовать базу.

Повторяющихся вычислений нет. В кеш записывается все что можно. В частности - частые значения ForeignKeys - в кеше.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Яндекс Практикум

Python-разработчик расширенный

14 месяцев

Далее
Яндекс Практикум

Мидл Python-разработчик

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

5 комментариев

Владимир Куц @fox_12 Автор вопроса, куратор тега Django

> 1. Сбор данных:
Это уже реализовано - celery/rabbit и redis для кеширования. Воркеры в несколько потоков трудятся над задачами из очереди.

> 2. Добавляй индексацию на поля.
Я ж уже отписал - нет по сути уникальных полей, на которые индексацию повесить можно было бы. Вешал на поле start_time_of_date - вылетало с ошибками duplicate_key

Написано более трёх лет назад
Евгений Скрыльников @04po1_23

Владимир Куц, Я ж уже отписал - нет по сути уникальных полей, на которые индексацию повесить можно было бы. Вешал на поле start_time_of_date - вылетало с ошибками duplicate_key

при добавлении записи группируйте по дате вот вам и индекс есть.

Написано более трёх лет назад
Владимир Куц @fox_12 Автор вопроса, куратор тега Django

Немного не понял. Вот есть у меня поле в котором метка времени: start_time_of_date
Назначаю его индексным - вылетает с ошибкой duplicate_key. я так понимаю оно не уникальное - и индексом его уже не назначишь. Что значит группировать?
Мне нужно внести два разных события случившихся в тот же момент времени к примеру.

Написано более трёх лет назад
Евгений Скрыльников @04po1_23

Мне нужно внести два разных события случившихся в тот же момент времени к примеру.

таблица 1
id
start_time_of_date(ваша уникальная дата)

таблица 2
.....
.....
.....
start_time_of_date(int)=таблица 1.id
.....

отобразить все записи где start_time_of_date=таблица 1.id

если я не правильно понял вопрос то не пинайте сильно))

Написано более трёх лет назад
Владимир Куц @fox_12 Автор вопроса, куратор тега Django

Pavel Denisov,
> Индекс предназначен для ускорения выборки, но может замедлить вставку

На данном этапе идет массовый сбор данных. Мне важнее сейчас быстро внести в БД огромное количество накопленных данных. Когда основные данные будут внесены, перейду на этап когда будут вноситься ежедневные данные. Их тоже много, но тут уже будет важна скорость выборки.

> Если у вас такое проблемы с пониманием, нужно глянуть еще и на то как вы делаете запись, если по одной

Я не суперспециалист в базах данных - у меня несколько другая специализация. Но все проблемы с пониманием решаются чтением нужной документацией - только нужно знать в каком направлении копать. Собственно для этого с вопросом я и обратился.
В данном случае вставка строки данных вместе со связанными данными у меня обернута в @transaction.atomic

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Django

Простой
Почему фикстура создания user ломает тест?
- 1 подписчик
- вчера
- 79 просмотров
0

ответов
Django

Простой
Как опубликовать Django приложение, чтобы работали картинки .jpg?
- 1 подписчик
- 17 окт.
- 77 просмотров
2

ответа
Django

Простой
Почему django считает is_stuff неожиданным аргументом?
- 1 подписчик
- 17 окт.
- 52 просмотра
1

ответ
Django

Простой
Не могу получить данные из связаной модели ManyToMany rel?
- 1 подписчик
- 09 окт.
- 87 просмотров
1

ответ
Django

Простой
Почему нельзя обновить ImageField с помощью update?
- 1 подписчик
- 06 окт.
- 64 просмотра
1

ответ
Django

Простой
Почему не отображается изображение Django?
- 1 подписчик
- 03 окт.
- 93 просмотра
0

ответов
Django

Простой
Есть ли способ автоматически обрезать media файлы пользователей в Django?
- 1 подписчик
- 02 окт.
- 102 просмотра
1

ответ
Django

Простой
Как задать параметры в TextChoises?
- 1 подписчик
- 25 сент.
- 106 просмотров
1

ответ
Django

Простой
Как реализовать Update для AbstractUser в Django?
- 1 подписчик
- 07 сент.
- 82 просмотра
0

ответов
Django

Простой
Как реализовать в django mfa посредством otp на email?
- 1 подписчик
- 27 авг.
- 92 просмотра
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Junior Python Developer

ITK academy • Нижний Новгород

от 75 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Какая структура данных? Есть ли взаимосвязи? По таймаутам отваливаются запросы к спискам моделей или при отображении форм, содержащих отношения? Голый SQL запрос из psql выполняется быстро или тоже медленно?
Формат таблицы дополнил в вопрос.
Взаимосвязи - есть несколько.
За primary_key хотел взять start_time_of_date. Но не получилось - оказывается даже там есть дубли разных запросов с той же меткой времени.
Прямые запросы к БД - попробую...

Answer 1 · 2017-11-02 13:18:53

Создать много небольших одинаковых таблиц для вставки (например для каждого часа). В этих таблицах убрать все constraints (foreign key, indexes, ...), в них импортировать csv файлы напрямую средствами базы (load from если база умеет).
На момент вставки - понизить уровень изоляции транзакций до минимума (MyISAM раньше идеальна была для таких вставок именно из-за отсутствия транзакций).
Эти таблицы можно уже потом для выборки либо связать через view, либо через более сложные процедуры партиционирования.
Если в течение дня (ночи?) есть какие-то промежутки времени когда база используется мало - можно запустить тяжелый скрипт, который переложит данные из этих таблиц в одну большую и добавит индексы и ключи.
Вставку данных желательно делать в одной транзакции. Если через ORM - то bulk_insert.
Если все это не помогает или не нравится - то улучшайте железо (как можно больше памяти) и настройки базы тяните, но это уже от безысходности.
Учтите, что лучше писать в базу с 3 коннектов, но большими порциями, чем с 30 коннектов но маленькими. Каждый коннект - отдельная транзакция и при закрытии транзакций базе приходится ее согласовывать с остальными текущими.

Answer 2 · 2017-10-23 17:02:06

1. Сбор данных:
Копай в сторону очередей, воркеров и тд. Паралельный сбор будет быстрее. Тем более что судя по всему ты сканишь всея интернет. Вкратце:

Создаешь задание для сканирования и помещаешь в сервер очередей.
Запускаешь кучу воркеров в на vps и они из этой очереди будут брать задания и выполнять
делаешь еще одну очередь для записи результатов в базу и поднимаешь парочку воркеров для записи в базу. Если каждый сканящий воркер будет напрямую писать в базу то скорее всего ты сам себе заддосиш базу
технологии: Очереди- RabbitMQ или Redis. Воркеры - Celery, Мониторинг - Flower

2.
Коллеги выше написали про оптимизацию базы. Это очень важно.
Добавляй индексацию на поля. (На те по которым делаешь фильтр. Например даты.)
Сразу почувствуешь прибавку скорости при запросах.

Answer 3 · 2017-10-23 16:49:07

Я бы посмотрел в сторону реляции и связей данных, возможно ли упростить выборку, применить что-то типа справочников, и проверять группы записей. Например по start_time_of_date и origination_source_number.

Django и таблицы с очень большим количеством данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт