Ответы пользователя по тегу Data mining
  • Как сравнивать две произвольные таблицы?

    oleg_agapov
    @oleg_agapov
    Data analyst, Business Intelligence
    Всё-таки Java или SQL? :)
    Если таки SQL. Подразумеваю, что используется Оракл.
    Во-первых, если таблицы не большие, то не должно быть проблем с обычным джойном или декартовым произведением
    SELECT 
    t1.*, t2.*
    FROM 
    table1 t1,
    table2 t2
    WHERE
    t1.fields = t2.fields

    Если таблицы большие, тут нужно быть аккуратнее, чтоб не пошел фулл скан таблиц и все не зависло к чертям. Убедитесь, что в таблице есть индексы. Вам повезло, если индексы совпадают с теми полями, по которым нужно сравнивать.
    Далее, я бы "откусывал" небольшие куски одной из таблиц и джойнил бы другую либо как в первом примере, либо вложенным подзапросом в SELECT. Если не критично для быстродействия, понемногу добавлял бы бОльшие куски первоначальной таблицы. Опять же, если не тормозит - то ок. В противном случае - писал бы процедуру для разбиения на куски и последующего джойна.
    Ответ написан
    4 комментария
  • Что почитать про анализ данных?

    oleg_agapov
    @oleg_agapov
    Data analyst, Business Intelligence
    Если нормально с английским (или хотите подтянуть), то рекомендую Doing Data Science
    www.amazon.com/Doing-Data-Science-Straight-Frontli...
    Заказал и читаю бумажную версию, но есть и электронная на www.allitebooks.com

    "О чем говорят цифры" читал, нормальная, но показалась размытой.
    Ответ написан
    Комментировать