Где лучше рассчитать корреляцию на наборе из 18 тысяч записей в Excel?
Есть данные клиентов обследования за 7 лет, около 20 тысяч записей. Все они сгруппированные в таблицу в Excel. Если убрать ненужное, выходит 4 колонки: ID, дата, особенности и результат. Некоторые люди проходили более одного раза (т.е. ID идентичные, значения в остальных колонках, возможно другие). Нужно посчитать корреляцию. Допустим, человек, который приходит и имеет определённые особенности, с какой вероятностью он будет получать определенный результат? А из тех, кто приходил более одного раза с определенными особенностями, какой процент получит такой результат и на какой раз?
Я экселям особо не работал, думаю предусмотрены у него такие функции. Как лучше посчитать данные? Делать это в самом Excel (тогда буду очень благодарен за ссылку на обучающее как это делать) или лучше переконвертировать базу допустим в тот же SQL или любой из No-SQL и уже тогда работать дальше? Тогда какой выбрать, что бы было быстрее в обучении и проще в использовании? Есть некоторые ограничения по работе с данными. Они должны находиться на определенной машине и не в коем случае не покидать ее, то есть онлайн-сервисы исключаются.
Задача называется не "поиск вероятности", а "поиск корреляции" (между результатом и содержимым ячейки "особенности"). В Excel есть такая функция: https://researchbasics.education.uconn.edu/using-e...
Однако, чтобы выполнить такой анализ правильно, нужно, чтобы формат "результата" и "особенностей" был машиночитаемым, то есть это не были бы текстовые заметки, а были бы определенные коды результата и коды "особенностей". Если же, например, "особенности" могут содержать наборы из нескольких свойств, задача разрастается и усложняется. В любом случае, лучше обратиться к тем, кто умеет делать такие вещи, потому что из текста вопроса следует, что вы никогда не выполняли статистический анализ, значит у вас проблемы будут возникать буквально на каждом шагу.