Как оптимизировть подобный код?

Question

Johnem @Johnem

Как оптимизировть подобный код?

Есть код, (саму бд не прилагаю т.к. весит 666мб), его суть проста - он проходит по строчкам бд и ищет экстремумы, но вот беда, делает он это крайне медленно. Можно ли его оптимизировать? Или лучше использовать pandas (для обработки и возможно хранения записей (в таком случае велики ли будут потери в весе файла и на сколько?)) или вообще структурные массивы numpy и хранить в .npy (если такое возможно) или в каком нибуть csv. Пригодятся любые советы! Код ниже.

import sqlite3

connect = sqlite3.connect('exemple.db')
cursor = connect.cursor()
cursor.executescript("""
    CREATE TABLE IF NOT EXISTS historical_data (
        security_id TEXT,
        date_and_time TEXT,
        price REAL
    );
    CREATE TABLE IF NOT EXISTS extremes (
        security_id TEXT,
        date_and_time TEXT,
        price REAL
    );
    CREATE TABLE IF NOT EXISTS levels (
        security_id TEXT,
        price REAL,
        power TEXT
    );
    """)

security_id = "GAZP"
date_and_time = "2020-01-06 10:00"

cursor.execute("SELECT COUNT(*) FROM historical_data WHERE security_id = ? AND date_and_time LIKE ?", (security_id, f"%{date_and_time}%"))
for i in range(cursor.fetchall()[0][0]):
    cursor.execute("SELECT * FROM historical_data WHERE security_id = ? AND date_and_time LIKE ? ORDER BY date_and_time LIMIT ?, 2", (security_id, f"%{date_and_time}%", i))
    a = cursor.fetchall()
    if a[1][2] - a[0][2] == 0:
        print("EXTR!")
        print(a)

Вопрос задан более трёх лет назад
193 просмотра

3 комментария

Подписаться 2 Средний 3 комментария

d'Ivan @2ord

Покажите вывод
Explain SELECT COUNT(*) ... со всеми параметрами.

Написано более трёх лет назад
padlyuck @padlyuck

оно и будет медленно работать, потому что вы проходите по всей таблице и каждый раз выбираете 2 записи. Лучше выбрать пачку скажем из 1000 записей и по ней последовательно пройтись, когда дойдете до 1000 записи - выбрать еще пачку записей и снова пройтись средствами языка. 1000 записей - условная цифра, подбираете под свои лимиты памяти.

Написано более трёх лет назад
Johnem @Johnem Автор вопроса

Роман Мирр, [(0, 'Init', 0, 33, 0, '', '00', None), (1, 'OpenEphemeral', 1, 5, 0, 'k(1,B)', '00', None), (2, 'Integer', 2, 1, 0, '', '00', None), (3, 'Variable', 3, 2, 0, '', '00', None), (4, 'MustBeInt', 2, 0, 0, '', '00', None), (5, 'OffsetLimit', 1, 3, 2, '', '00', None), (6, 'OpenRead', 0, 2, 0, '3', '00', None), (7, 'Rewind', 0, 25, 0, '', '00', None), (8, 'Column', 0, 0, 4, '', '00', None), (9, 'Ne', 5, 24, 4, '(BINARY)', '52', None), (10, 'Column', 0, 1, 7, '', '00', None), (11, 'Function0', 1, 6, 4, 'like(2)', '02', None), (12, 'IfNot', 4, 24, 1, '', '00', None), (13, 'Column', 0, 1, 8, '', '00', None), (14, 'Sequence', 1, 9, 0, '', '00', None), (15, 'IfNotZero', 3, 19, 0, '', '00', None), (16, 'Last', 1, 0, 0, '', '00', None), (17, 'IdxLE', 1, 24, 8, '1', '00', None), (18, 'Delete', 1, 0, 0, '', '00', None), (19, 'Column', 0, 0, 10, '', '00', None), (20, 'Column', 0, 2, 11, '', '00', None), (21, 'RealAffinity', 11, 0, 0, '', '00', None), (22, 'MakeRecord', 8, 4, 13, '', '00', None), (23, 'IdxInsert', 1, 13, 8, '4', '00', None), (24, 'Next', 0, 8, 0, '', '01', None), (25, 'Sort', 1, 32, 0, '', '00', None), (26, 'IfPos', 2, 31, 1, '', '00', None), (27, 'Column', 1, 3, 12, '', '00', None), (28, 'Column', 1, 0, 11, '', '00', None), (29, 'Column', 1, 2, 10, '', '00', None), (30, 'ResultRow', 10, 3, 0, '', '00', None), (31, 'Next', 1, 26, 0, '', '00', None), (32, 'Halt', 0, 0, 0, '', '00', None), (33, 'Transaction', 0, 0, 3, '0', '01', None), (34, 'Variable', 1, 5, 0, '', '00', None), (35, 'Variable', 2, 6, 0, '', '00', None), (36, 'Goto', 0, 1, 0, '', '00', None)]

Написано более трёх лет назад

Решения вопроса 1

2 комментария

Johnem @Johnem Автор вопроса

Подскажите, а можно узнать соседство встроенными функциями sqlite?

Написано более трёх лет назад
Руслан . @LaRN

Johnem, теоретически можно, но не факт, что это будет лучше, вы же написали что таблица очень большая. Можно попробовать джойнить таблицу саму на себя по цене, бумаге и наложить условие на дату, так чтобы дата в связываемой таблице была больше даты в исходной. Для полученных записей определять что между ними нет других записей. Если у вас например есть сурогатный ключ-счётчик в таблице, то можно проверить значение этого ключа, у записей из связанных таблиц и оставлять только те пары у которых значения ключей идут с интервалов в единицу.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Что не так с моими асинхронными запросами?
- 1 подписчик
- вчера
- 130 просмотров
0

ответов
Python

Простой
Как в питоне генерировать (создавать+заполнять значениями по умолчанию) вложенный словарь так, чтобы вложенные элементы не были копиями друг друга?
- 1 подписчик
- 20 авг.
- 114 просмотров
1

ответ
Python

+1 ещё

Простой
Из-за чего возникает ошибка неверный дескриптор?
- 1 подписчик
- 19 авг.
- 98 просмотров
1

ответ
Python

Простой
Непонимание ошибки yolo8?
- 1 подписчик
- 19 авг.
- 59 просмотров
0

ответов
Python

+1 ещё

Простой
Как грамотно изначально сделать телеграмм бота на Python с помощью aiogram чтобы выдерживал как минимум 10к пользователи и можно было масштабировать?
- 1 подписчик
- 18 авг.
- 222 просмотра
2

ответа
Python

Простой
Как сделать lock для двух асинхронных программ?
- 1 подписчик
- 18 авг.
- 130 просмотров
1

ответ
C#

+2 ещё

Простой
Как добавить данные из БД в отредактированный DataGrid (C# WPF)?
- 2 подписчика
- 18 авг.
- 105 просмотров
1

ответ
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- нет подписчиков
- 16 авг.
- 144 просмотра
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 142 просмотра
1

ответ
Python

Простой
Что можно ускорить в коде решателя игры крестики нолики?
- 1 подписчик
- 16 авг.
- 231 просмотр
1

ответ
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Покажите вывод
Explain SELECT COUNT(*) ... со всеми параметрами.
оно и будет медленно работать, потому что вы проходите по всей таблице и каждый раз выбираете 2 записи. Лучше выбрать пачку скажем из 1000 записей и по ней последовательно пройтись, когда дойдете до 1000 записи - выбрать еще пачку записей и снова пройтись средствами языка. 1000 записей - условная цифра, подбираете под свои лимиты памяти.
Роман Мирр, [(0, 'Init', 0, 33, 0, '', '00', None), (1, 'OpenEphemeral', 1, 5, 0, 'k(1,B)', '00', None), (2, 'Integer', 2, 1, 0, '', '00', None), (3, 'Variable', 3, 2, 0, '', '00', None), (4, 'MustBeInt', 2, 0, 0, '', '00', None), (5, 'OffsetLimit', 1, 3, 2, '', '00', None), (6, 'OpenRead', 0, 2, 0, '3', '00', None), (7, 'Rewind', 0, 25, 0, '', '00', None), (8, 'Column', 0, 0, 4, '', '00', None), (9, 'Ne', 5, 24, 4, '(BINARY)', '52', None), (10, 'Column', 0, 1, 7, '', '00', None), (11, 'Function0', 1, 6, 4, 'like(2)', '02', None), (12, 'IfNot', 4, 24, 1, '', '00', None), (13, 'Column', 0, 1, 8, '', '00', None), (14, 'Sequence', 1, 9, 0, '', '00', None), (15, 'IfNotZero', 3, 19, 0, '', '00', None), (16, 'Last', 1, 0, 0, '', '00', None), (17, 'IdxLE', 1, 24, 8, '1', '00', None), (18, 'Delete', 1, 0, 0, '', '00', None), (19, 'Column', 0, 0, 10, '', '00', None), (20, 'Column', 0, 2, 11, '', '00', None), (21, 'RealAffinity', 11, 0, 0, '', '00', None), (22, 'MakeRecord', 8, 4, 13, '', '00', None), (23, 'IdxInsert', 1, 13, 8, '4', '00', None), (24, 'Next', 0, 8, 0, '', '01', None), (25, 'Sort', 1, 32, 0, '', '00', None), (26, 'IfPos', 2, 31, 1, '', '00', None), (27, 'Column', 1, 3, 12, '', '00', None), (28, 'Column', 1, 0, 11, '', '00', None), (29, 'Column', 1, 2, 10, '', '00', None), (30, 'ResultRow', 10, 3, 0, '', '00', None), (31, 'Next', 1, 26, 0, '', '00', None), (32, 'Halt', 0, 0, 0, '', '00', None), (33, 'Transaction', 0, 0, 3, '0', '01', None), (34, 'Variable', 1, 5, 0, '', '00', None), (35, 'Variable', 2, 6, 0, '', '00', None), (36, 'Goto', 0, 1, 0, '', '00', None)]

Answer 1 · 2020-08-19 21:14:35

Можно попробовать сократить перебор если откинуть заведомо не повторяющиеся цены, например так:

SELECT price
 FROM historical_data
 WHERE security_id = ?
   AND date_and_time LIKE? 
 GROUP BY price
HAVING COUNT(price) > 1

На выходе получим цены, которые минимум дважды встречаются для бумаги и даты. А дальше зная бумагу, дату и цену можно проверить идут ли эти цены последовательно или нет.

Answer 2 · 2020-08-19 20:44:58

d-stream @d-stream

Готовые решения - не подаю, но...

Сильно подозреваю что один чисты sql запрос, заполняющий все сразу будет на порядки оптимальнее.

Ответ написан более трёх лет назад

Комментировать

Как оптимизировть подобный код?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт