Как хранить в базе исторические данные и удалять дубликаты?

Question

vgray @vgray

Как хранить в базе исторические данные и удалять дубликаты?

Есть 500 миллионов датчиков (проект под NDA, поэтому немного меняю названия элементов задачи, но суть остается какой нужно), у каждого датчика есть такой параметр как "текущие показания". Показания меняются редко, где-то раз в 1-2 месяца.

Раз в 3-4 дня приходят данные о показаниях в виде огромного csv файла, которы выглядит вот так

sensor_id,timestamp,value

Нужно хранить историю изменения показаний.

Если хранить в лоб, то будет много дубликатов, которые отличаются только датой. хочется хранить только те строки, которые отличаются от предыдущей

Те если приходили такие данные

sensor_N1,2021-02-01,100
sensor_N1,2021-02-10,100
sensor_N1,2021-02-21,115
sensor_N1,2021-02-25,115
sensor_N1,2021-03-01,115
sensor_N1,2021-03-11,100

то хотелось бы оставить только строки
sensor_N1,2021-02-01,100
sensor_N1,2021-02-21,115
sensor_N1,2021-03-11,100

В какую сторону смотреть, чтобы такое реализовать? .

Пока придумались такие варианты

1) Если при инсерте делать select на предыдущую строку - то это ужасно медленно (500 миллионов датчиков)

2) Перед импортом данных, делать экспорт последней записи для всех датчиков, скриптами отпределять данные которые изменились и заливать только измененные данные

3) Что-то еще?

Смотрим любую базу которая позволит решить эту задачу.

Вопрос задан более трёх лет назад
582 просмотра

9 комментариев

Подписаться 4 Средний 9 комментариев

FanatPHP @FanatPHP

размер value какой?

Написано более трёх лет назад
vgray @vgray Автор вопроса

FanatPHP, это строковый параметр 10-20 байт (ASCII)

Написано более трёх лет назад
vgray @vgray Автор вопроса

FanatPHP, и как это поможет?

В вашем случае вместо трех строк,

sensor_N1,2021-02-01,100
sensor_N1,2021-02-21,115
sensor_N1,2021-03-11,100

будет только две строки (третья строка перезатрет первую)
sensor_N1,2021-02-21,115
sensor_N1,2021-03-11,100

Написано более трёх лет назад
FanatPHP @FanatPHP

да, тупанул

Написано более трёх лет назад
FanatPHP @FanatPHP

как вариант - хранить всё, в кликхаусе

Написано более трёх лет назад
vgray @vgray Автор вопроса

FanatPHP,

ReplacingMergeTree тут тоже не поможет, хранить полную историю я не хочу. ну и запросы вида select * from xxx where sensorID = sensor_N1 - это тоже не лучший тип запроса кликхауса (он читает всю гранулу)

Написано более трёх лет назад
galaxy @galaxy

vgray, А вы тестировали INSERT IGNORE (INSERT ON CONFLICT ... DO NOTHING в Pg)? Сделать unique constraint на три поля и вперед.

Написано более трёх лет назад
vgray @vgray Автор вопроса

galaxy, без тестирования могу сказать, что не будет работать. У вас тоже останется две строчки или будет полная история с дублями

Написано более трёх лет назад
galaxy @galaxy
да, что-то я не так понял..

Тогда, мне кажется, второй вариант нормальный. Возможно, это лучше будет даже делать в БД: загрузили во временную таблицу, туда же добавили последние показания, одним запросом строки с изменениями и вставили. Запрос типа:

SELECT ... FROM ( SELECT ..., value, LAG(value) OVER (PARTITION BY sensor_id ORDER BY timestamp) AS prev ) WHERE value <> prev
Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Shultais Education

Основы SQL

3 месяца

Далее
Shultais Education

Продвинутый SQL

1 месяц

Далее
Merion Academy

Основы реляционных баз данных SQL

1 месяц

Далее

Пригласить эксперта

Ответы на вопрос 5

Комментировать

5 комментариев

Ромзес Панагиотис @romesses

А в чём сложность-то? К вам приходит огромный CSV-файл, берёте - и вычищаете из него строчки с одинаковыми показаниями, оставляя только первую, после чего инсертите получившееся в базу.
И как вы собираетесь "вычищать" из огромного CSV? Сначала записать результат в промежуточный файл, и аж потом в БД?

Написано более трёх лет назад
vgray @vgray Автор вопроса

Вы не вникли в задачу. Задача не внутри CSV файла найти дубли, а найти дубли в базе и в файле и добавить в базу только измененные данные.

Написано более трёх лет назад
ky0 @ky0

vgray, это просто дополнительный шаг: посмотреть последнее показание каждого счётчика в базе, и если в "вычищенном" CSV показание ровно одно и не отличается от "базового" - ничего не добавлять.

Написано более трёх лет назад
vgray @vgray Автор вопроса

ky0, :) ок. Вы попробуйте сами как-нить, а потом скажите сколько у вас будет 500 миллионов селектов выполняться.

Написано более трёх лет назад
ky0 @ky0

vgray, непременно. Вы тоже держите в курсе - каким магическим способом избавитесь от девятизначного числа операций, не засирая базу кучей лишней информации.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Средний
Почему после импорта базы из .sql файлов таблицу с 13Гб раздуло до 55Гб?
- 4 подписчика
- вчера
- 341 просмотр
1

ответ
SQL

Простой
Почему INSERT присваивает только один символ вместо полного значения?
- 1 подписчик
- 29 окт.
- 130 просмотров
2

ответа
SQL

Простой
Правильно ли написан SQL-запрос для вывода клиентов с действующими (непогашенными) кредитами?
- 1 подписчик
- 19 окт.
- 179 просмотров
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт.
- 215 просмотров
4

ответа
PostgreSQL

Простой
Как отредактировать строку в таблице, не имеющей primary key?
- 1 подписчик
- 10 окт.
- 268 просмотров
4

ответа
Python

+2 ещё

Средний
При подключении к бд MySQL через SSH из Python появляется ошибка, а через DBeaver всё чётко. В чём дело?
- 2 подписчика
- 29 сент.
- 304 просмотра
1

ответ
MySQL

Простой
MySQL JSON_OBJECT Приводит значение к строковому типу, возможно ли это как то обойти?
- 2 подписчика
- 26 сент.
- 121 просмотр
1

ответ
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 312 просмотров
1

ответ
PostgreSQL

+1 ещё

Средний
Как установить Postgres в Ubuntu от 1с (c ИТС)?
- 1 подписчик
- 22 сент.
- 212 просмотров
2

ответа
SQL

+3 ещё

Средний
IIS/Lansweeper сильно тормозит из-за аномального числа логонов, внутренний DDoS?
- 1 подписчик
- 15 сент.
- 94 просмотра
0

ответов
Показать ещё Загружается…

Linux Systems Engineer (Asterisk/SIP)

IT ATLAS • Москва

от 200 000 ₽

Системный администратор Linux

Abc staff • Москва

До 250 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

FanatPHP, это строковый параметр 10-20 байт (ASCII)
FanatPHP, и как это поможет?

В вашем случае вместо трех строк,

sensor_N1,2021-02-01,100
sensor_N1,2021-02-21,115
sensor_N1,2021-03-11,100

будет только две строки (третья строка перезатрет первую)
sensor_N1,2021-02-21,115
sensor_N1,2021-03-11,100
как вариант - хранить всё, в кликхаусе
FanatPHP,

ReplacingMergeTree тут тоже не поможет, хранить полную историю я не хочу. ну и запросы вида select * from xxx where sensorID = sensor_N1 - это тоже не лучший тип запроса кликхауса (он читает всю гранулу)
vgray, А вы тестировали INSERT IGNORE (INSERT ON CONFLICT ... DO NOTHING в Pg)? Сделать unique constraint на три поля и вперед.
galaxy, без тестирования могу сказать, что не будет работать. У вас тоже останется две строчки или будет полная история с дублями
да, что-то я не так понял..

Тогда, мне кажется, второй вариант нормальный. Возможно, это лучше будет даже делать в БД: загрузили во временную таблицу, туда же добавили последние показания, одним запросом строки с изменениями и вставили. Запрос типа:

SELECT ... FROM ( SELECT ..., value, LAG(value) OVER (PARTITION BY sensor_id ORDER BY timestamp) AS prev ) WHERE value <> prev

Answer 1 · 2021-05-02 12:56:37

Можно для каждого датчика в оперативной таблице хранить две даты: дата начала интервала постоянства и дата окончания этого интервала. Это такой интервал в котором значение датчика не меняется.
Т. е. грузим текущие данные и если по датчику значение не поменялось, то просто изменяем дату окончания интервала на дату текущей загрузки, если значение датчика поменялось(отличается от сохраненного в оперативной таблице) , то текущий интервал выгружаем в архивную таблицу, а в оперативной добавляем новую(изменяем существующую) запись для датчика у которой дата начала и дата окончания будет равна дате текущей загрузки, а значение текущему загружаемому значению датчика.
Т. е. в оперативной таблице всегда количество записей равно количеству датчиков, а в исторической весь скоп предыдущих значений.
Это должно защитить от того, что с течением времени скорость работы с оперативной таблицей будет деградировать, от того что там будет расти число записей.
Если же нужно какой-то отчёт строить или выгрузку за период или за прошлые даты, то тут уже нужно будет работать с исторической таблицей и это будет уже не очень быстро, но такие операции обычно не требуется часто выполнять.

Так как данные грузятся раз в 3-4 дня, наверное не очень критично, что загрузка будет выполнять не мгновенно. Тут наверное проще в несколько этапов сделать: на первом проходе построить список идентификатор датчиков по которым значение не поменялось, затем по этому списку проапдейтить дату окончания интервала на дату текущей загрузки, затем по датчикам которые не попали в список перелить строки в архивную таблицу и наконец поменять для изменённый датчиков в оперативной таблице значение счётчика и даты начала и окончания интервала.
Всё шаги можно делать массово.

Answer 2 · 2021-05-06 13:53:57

Если хранить в лоб, то будет много дубликатов, которые отличаются только датой. хочется хранить только те строки, которые отличаются от предыдущей

Мне кажется, это плохой подход
Если с какого-то датчика приходят данные всегда одинаковые в течение месяца, то это подтверждает, что канал связи с ним работает.
Имхо, все данные нужно хранить.
В вашем случае использовать Time series database - InfluxDB, TimescaleDB и прочие, которые заточены для работы с временными рядами.

Answer 3 · 2021-05-02 13:50:32

А в чём сложность-то? К вам приходит огромный CSV-файл, берёте - и вычищаете из него строчки с одинаковыми показаниями, оставляя только первую, после чего инсертите получившееся в базу.

Засовывать кучу лишней информации в базу, и только потом вычищать - контрпродуктивно. С этим справится простейший скрипт, пробегающий по всем строчкам.

Answer 4 · 2021-05-02 15:34:48

1) Если при инсерте делать select на предыдущую строку - то это ужасно медленно (500 миллионов датчиков)

А вы пробовали? Если делать умеючи, то нормально.
Заливаете порцию данных, скажем, в 100 тыс. строк в промежуточную таблицу. Делаете INSERT ... SELECT ... JOIN. Ну и индексы правльно настроить.

3) Что-то еще?

Например. Вместо INSERT делаете UPDATE. На UPDATE вешаете триггер, который делает копию текущего значения, если оно отличается.

Answer 5 · 2021-05-03 02:11:22

Предложу свой вариант обработчик через временную таблицу, на сколько он быстр не проверял, но его можно оптимизировать:

WITH t AS (SELECT *, row_number() over (PARTITION BY id ORDER BY created_at) as row FROM temporary_data),
	 d AS (SELECT DISTINCT ON (id) * FROM current_data ORDER BY id, created_at DESC)
SELECT t.*
FROM t
	LEFT JOIN t t2 ON t.id = t2.id AND t.row = t2.row+1
	LEFT JOIN d ON t.row = 1 AND t.id = d.id 
WHERE t.value <> coalesce(t2.value, d.value);

Пример работы

Как хранить в базе исторические данные и удалять дубликаты?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт