Как сравнивать две произвольные таблицы?

Question

ttt1 @ttt1

Как сравнивать две произвольные таблицы?

Добрый день!
Есть две таблицы. Известно, что большая часть данных в них пересекается. Но могут быть и совсем разные данные или измененные данные в одной из таблиц. Необходимо написать алгоритм по которому бы программа находила общие записи в таблицах и отображала. Как бы для начала подойти к этой задаче?

Вопрос задан более трёх лет назад
15201 просмотр

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Java-разработчик с нуля

12 месяцев

Далее
Академия Эдюсон

Java-разработчик + ИИ

8 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

4 комментария

GameHasNoName @r0ll

Если Оракл и если таблицы большие, то индексы не нужны - все равно нужно сравнить между собой ПОЛНОСТЬЮ всё. Лучше в этом случае распараллелить запрос на 4-32 потока, смотря - сколько ресурсов у сервера есть и сколько из них можно утилизировать.

Написано более трёх лет назад
Oleg Agapov @oleg_agapov

Борис: Совершенно верно, но я знаком с Map Reduce только в теории. Поэтому бы и использовал индекс, чтобы разбивать на куски (по сути - потоки) и прогонял бы по очереди. А искать известную часть одной таблицы все-таки лучше по индексу второй.

Написано более трёх лет назад
GameHasNoName @r0ll

Oleg Agapov: ну опять-таки неоднозначно =) если, например, нужен кусок 100-миллионный кусок таблицы на 1 млрд записей ("жалкие" 10%), то индексы лучше не использовать, т.к. время запроса, скорее всего, увеличится по сравнению с фуллсканом. Что касается разбиения на куски и дальнейшей параллельной обработки, то идея хорошая. Я примерно о том же и говорил: Oracle позволяет запустить запрос в несколько потоков (сессий).

Написано более трёх лет назад
Rustemmus @Rustemmus

Если выполнятся следующие условия:
1) нужен фул-скан;
2) таблицы огромные а ресурсы сервера слабые относительно объема таблиц;
3) таблицы разбиты на партиции (например по дате);

То можно запустить сверку в цикле по дате с загрузкой результата каждой итерации во временную таблицу, или выводом данныx в dbms_output (Oracle). Таким образом не будет эффекта зависшей БД, и не нужно будет гадать отработает ли вообще когда нибудь данный запрос и "рубить или не рубить" . Работа будет делаться маленькими порциями-партициями и даже в случае сбоя можно будет продолжить с "места разъединения".

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 314 просмотров
0

ответов
Java

Простой
Почему не запускается Flyway?
- 1 подписчик
- 12 мая
- 181 просмотр
2

ответа
Java

Простой
Можно ли сделать «псевдоним» для пакета?
- 3 подписчика
- 06 мая
- 238 просмотров
1

ответ
Java

Простой
Возможно ли добавлять методы в пакет чужой библиотеки?
- 1 подписчик
- 05 мая
- 189 просмотров
2

ответа
Java

+2 ещё

Сложный
Как гарантировано закрыть сокет через ServerSocket?
- 2 подписчика
- 30 апр.
- 178 просмотров
1

ответ
Java

Средний
Как получать ввод с конкретной клавиатуры и мышки, если их несколько?
- 2 подписчика
- 29 апр.
- 160 просмотров
1

ответ
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 383 просмотра
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 217 просмотров
1

ответ
1С-Битрикс

+1 ещё

Простой
Как получить доступ к SQL-базе Bitrix 14.5?
- 2 подписчика
- 18 мар.
- 310 просмотров
2

ответа
Java

Простой
Как переделать этот SQL запрос на java?
- 1 подписчик
- 13 мар.
- 341 просмотр
1

ответ
Показать ещё Загружается…

Answer 1 · 2016-03-28 11:22:16

Всё-таки Java или SQL? :)
Если таки SQL. Подразумеваю, что используется Оракл.
Во-первых, если таблицы не большие, то не должно быть проблем с обычным джойном или декартовым произведением

SELECT 
t1.*, t2.*
FROM 
table1 t1,
table2 t2
WHERE
t1.fields = t2.fields

Если таблицы большие, тут нужно быть аккуратнее, чтоб не пошел фулл скан таблиц и все не зависло к чертям. Убедитесь, что в таблице есть индексы. Вам повезло, если индексы совпадают с теми полями, по которым нужно сравнивать.
Далее, я бы "откусывал" небольшие куски одной из таблиц и джойнил бы другую либо как в первом примере, либо вложенным подзапросом в SELECT. Если не критично для быстродействия, понемногу добавлял бы бОльшие куски первоначальной таблицы. Опять же, если не тормозит - то ок. В противном случае - писал бы процедуру для разбиения на куски и последующего джойна.

Answer 2 · 2016-03-28 11:14:37

Дмитрий Ковальский @dmitryKovalskiy

программист средней руки

Можно взять 2 таблицы и попробовать сделать INNER JOIN по полям, которые должны пересечься.

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2016-03-29 01:24:28

Сливаем две таблицы

SELECT * FROM tbl1
UNION ALL
SELECT * FROM tbl2

затем группируем по всем полям и выбираем те группы, которые содержат более одной записи

SELECT *
    FROM (SELECT * FROM tbl1
          UNION ALL
          SELECT * FROM tbl2
         )
    GROUP BY field1, field2, ...
    HAVING COUNT(*) > 1

Такой запрос не требует индексов и будет очень эффективен даже на очень больших таблицах
Разумеется, решение основано на предположении об уникальности записей в каждой из таблиц

Answer 4 · 2016-04-11 19:25:57

Выбрать столбцы и строки, которые пересекаются в двух таблицах можно таким образом:

SELECT column1, column2, column3, column4 FROM table1
intersect
SELECT column1, column2, column3, column4 FROM table2

intersect выводит только те строки, которые есть в обеих таблицах.
union выводит строки исключив повторяющиеся (distinct). Соответственно это тяжелая операция.
union all выводит строки обеих таблиц без обработки.
minus отнимает от строк верхнего запроса строки нижнего запроса. Выводит только те строки, которые есть в верхнем, и нет в нижнем запросе.

Для всех упомянутых операций необходимо условие, чтобы выводимые столбцы были одинаковые.
Если структура таблиц разная, только некоторые столбцы одинаковые а выводить нужно все столбцы, то нужно использовать Join. Пример join-а описал Oleg Agapov.

Как сравнивать две произвольные таблицы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт