По каким столбцам фильтровать данные, которые уже были загружены и грузить только новые данные?

Question

Denis @denislysenko

data engineer

SQL

По каким столбцам фильтровать данные, которые уже были загружены и грузить только новые данные?

Мне нужно реализовать инкрементальную загрузку данных.

пример:
Кусок таблицы выгдялит так

select * from order_states limit 20

+--------+-------------+-------------------+-------+-------------------+------+-----------+--------+-------+------------+
|order_id|ext_source_id|                 dt|  state|                 ts|msk_dt|api_user_id|state_id|comment|ext_state_id|
+--------+-------------+-------------------+-------+-------------------+------+-----------+--------+-------+------------+
|     919|            1|2021-01-29 16:48:27|   PROC|2021-02-12 00:12:20|  null|       null|       7|   null|          72|
|     920|            1|2021-01-29 16:48:30|PRINTED|2021-02-12 00:12:20|  null|       null|       1|   null|          73|
|     920|            1|2021-01-29 16:48:30|   DONE|2021-02-12 00:12:20|  null|       null|       1|   null|          74|
|     921|            1|2021-01-29 14:48:30|   SAVE|2021-02-12 00:12:20|  null|       null|       6|   null|          75|
|     921|            1|2021-01-29 14:48:30|   PROC|2021-02-12 00:12:20|  null|       null|       7|   null|          72|
|     922|            1|2021-01-29 14:48:00|    NEW|2021-02-12 00:12:20|  null|       null|       9|   null|          76|
|     923|            1|2021-01-29 14:48:31|PRINTED|2021-02-12 00:12:20|  null|       null|       1|   null|          73|
|     923|            1|2021-01-29 14:48:31|   DONE|2021-02-12 00:12:20|  null|       null|       1|   null|          74|
|     924|            1|2021-01-29 14:48:21|   SAVE|2021-02-12 00:12:20|  null|       null|       6|   null|          75|
|     924|            1|2021-01-29 14:48:22|   PROC|2021-02-12 00:12:20|  null|       null|       7|   null|          72|
|     925|            1|2021-01-29 14:48:52|PRINTED|2021-02-12 00:12:20|  null|       null|       1|   null|          73|
|     926|            1|2021-01-29 14:48:04|    NEW|2021-02-12 00:12:20|  null|       null|       9|   null|          76|
|     927|            1|2021-01-29 14:48:23|   SAVE|2021-02-12 00:12:20|  null|       null|       6|   null|          75|
|     925|            1|2021-01-29 14:48:52|   DONE|2021-02-12 00:12:20|  null|       null|       1|   null|          74|
|     928|            1|2021-01-29 14:48:04|    NEW|2021-02-12 00:12:20|  null|       null|       9|   null|          76|
|     927|            1|2021-01-29 14:48:24|   PROC|2021-02-12 00:12:20|  null|       null|       7|   null|          72|
|     929|            1|2021-01-29 13:48:39|PRINTED|2021-02-12 00:12:20|  null|       null|       1|   null|          73|
|     930|            1|2021-01-29 14:48:24|PRINTED|2021-02-12 00:12:20|  null|       null|       1|   null|          73|
|     929|            1|2021-01-29 13:48:39|   DONE|2021-02-12 00:12:20|  null|       null|       1|   null|          74|
|     931|            1|2021-01-29 14:48:04|PRINTED|2021-02-12 00:12:20|  null|       null|       1|   null|          73|
+--------+-------------+-------------------+-------+-------------------+------+-----------+--------+-------+------------+

в качестве вотерпоинта я сначала выбрал столбцец order_id
и создал отдельную таблицу где хранил значение вотерпоинта и выводил недостающие данные таким образом:

select * from order_states where order_id > {значение вотерпоинта, например 1040}

Но мне кажется, что судя по данным, это не самый оптимальный способ, для фильтрации недостающих значений,
По каким столбцам лучше фильтровать недостающие значения, чтобы не терять никакие данные при дополнительной загрузке? По dt и order_id одновременно?

Вопрос задан более трёх лет назад
60 просмотров

5 комментариев

Подписаться 1 Средний 5 комментариев

Akina @Akina

Вот то есть мы должны сами догадаться, что это за данные, где и как образуются, что означает в физическом смысле каждый столбец, и вообще что происходит...

Вот не судьба. Телепаты - в отпуске. Хрустальный шар - в ремонте. По предсказаниям - двойка.

Или объясняй, подробно и внятно, всё с этими данными связанное, ну и что куда должно выгружаться и загружаться, и вообще о чём речь... или получишь одни предположения и догадки, и будешь думать, куда их прислонить.

Написано более трёх лет назад
rrambo @rrambo

да вроде не надо тебе ничего менять. как говорится, работает — не трожь.

Написано более трёх лет назад
Denis @denislysenko Автор вопроса

rrambo, У меня есть еще один вопрос. Если данные могут меняться на стороне источника(например: я загрузил какие то данные, но через месяц в бд откуда я эти данные брал, изменились несколько строк), то какие способы есть, чтобы понять какие данные изменились и изменить их и у себя?

Написано более трёх лет назад
Denis @denislysenko Автор вопроса

Akina, У меня есть еще один вопрос. Если данные могут меняться на стороне источника(например: я загрузил какие то данные, но через месяц в бд откуда я эти данные брал, изменились несколько строк), то какие способы или подходы можно применить, чтобы понять какие данные изменились и изменить их и у себя?

Написано более трёх лет назад
Akina @Akina

Ответ зависит от того, какая именно СУБД, и даже какая точно версия.
Кстати, и решение исходной задачи - тоже зависит от этих данных.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Продвинутый SQL

9 недель

Далее
Академия Эдюсон

SQL-разработчик: тариф Базовый

2 месяца

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

1С-Битрикс

+1 ещё

Простой
Как получить доступ к SQL-базе Bitrix 14.5?
- 2 подписчика
- 18 мар.
- 311 просмотров
2

ответа
SQL

+2 ещё

Простой
Как ИИ использовать для написания sql запросов?
- 1 подписчик
- 02 мар.
- 986 просмотров
5

ответов
SQL

Простой
Как мне перестроить sql-запрос так, чтобы сообщение не удалялось, с изменением его содержания в начале?
- 1 подписчик
- 01 февр.
- 210 просмотров
1

ответ
SQL

Простой
Как получить последнюю запись для определённого поля?
- 1 подписчик
- 03 дек. 2025
- 348 просмотров
2

ответа
SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 2 подписчика
- 11 нояб. 2025
- 332 просмотра
1

ответ
SQL

Простой
Почему INSERT присваивает только один символ вместо полного значения?
- 2 подписчика
- 29 окт. 2025
- 246 просмотров
2

ответа
SQL

Простой
Правильно ли написан SQL-запрос для вывода клиентов с действующими (непогашенными) кредитами?
- 1 подписчик
- 19 окт. 2025
- 281 просмотр
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт. 2025
- 285 просмотров
4

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент. 2025
- 386 просмотров
1

ответ
SQL

+3 ещё

Средний
IIS/Lansweeper сильно тормозит из-за аномального числа логонов, внутренний DDoS?
- 1 подписчик
- 15 сент. 2025
- 124 просмотра
0

ответов
Показать ещё Загружается…

Вот то есть мы должны сами догадаться, что это за данные, где и как образуются, что означает в физическом смысле каждый столбец, и вообще что происходит...

Вот не судьба. Телепаты - в отпуске. Хрустальный шар - в ремонте. По предсказаниям - двойка.

Или объясняй, подробно и внятно, всё с этими данными связанное, ну и что куда должно выгружаться и загружаться, и вообще о чём речь... или получишь одни предположения и догадки, и будешь думать, куда их прислонить.
да вроде не надо тебе ничего менять. как говорится, работает — не трожь.
rrambo, У меня есть еще один вопрос. Если данные могут меняться на стороне источника(например: я загрузил какие то данные, но через месяц в бд откуда я эти данные брал, изменились несколько строк), то какие способы есть, чтобы понять какие данные изменились и изменить их и у себя?
Akina, У меня есть еще один вопрос. Если данные могут меняться на стороне источника(например: я загрузил какие то данные, но через месяц в бд откуда я эти данные брал, изменились несколько строк), то какие способы или подходы можно применить, чтобы понять какие данные изменились и изменить их и у себя?
Ответ зависит от того, какая именно СУБД, и даже какая точно версия.
Кстати, и решение исходной задачи - тоже зависит от этих данных.

По каким столбцам фильтровать данные, которые уже были загружены и грузить только новые данные?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт