Как сравнить коэффициенты корреляриции при разных размерах выборок?

Question

Inzer @Inzer

Математическая статистика

Как сравнить коэффициенты корреляриции при разных размерах выборок?

Добрый день.
Имеется 4 набора данных (строки) с нормальным распределением.
Количество элементов первых двух - 200, третьей и четвёртой - 205.
В питоне рассчитываю коэф. корреляции между первой и второй, третьей и четвёртой соответственно. Необходимо выбрать одну пару из двух по значению коэффициента. Получаю r12=0,9999, r34=0,9998. Правильным выбором будет 3-4. В случае, если коэф. корреляции больше или равен и количество элементов больше у одной и той же пары, проблем не возникает.
Есть какие-либо критерии достоверности (значимости) r в зависимости от размера выборки? Оптимальным был бы какой-то интегральный признак.
Значения приведены для примера, бывают разные, поэтому некую дельту (допуск) брать не получится. Сначала сравнивать размер строк тоже не работает.

Вопрос задан более трёх лет назад
244 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Аналитика данных и использование искусственного интеллекта в психологии с МИП

24 месяца

Далее
Skillbox

Data Scientist с нуля до Junior

9 месяцев

Далее
Яндекс Практикум

Математика для анализа данных

6 месяцев

Далее

Решения вопроса 1

2 комментария

Inzer @Inzer Автор вопроса

Спасибо! Буду копать в этом направлении.
Отвечая на вопросы и замечания:
1. Да, использую критерий Пирсона.
2. Я знаю, что в конкретном случае второй ответ правильный, т.к. решал эту задачу другим методом, не связанным с мат. статистикой.
3. В нашей вики сказано, что ''Использование p-значений...нередко приводит к ошибкам первого рода''. Никак не могу прокомментировать.
С уважением.

Написано более трёх лет назад
dmshar @dmshar

Рад, что помог. Кстати, для справки. На этом форуме благодарность принято выражать в виде нажатия клавиши "нравится" под вопросом. А если ответ вы принимаете - то тоже, нажатием клавиши "Ответить решением".

Любой метод всегда приводит к ошибкам. Наличие p-values помогает хотя-бы этот вопрос проконтролировать. Можно, конечно, ограничится доверительными интервалами. Но это не решает проблемы, а лишь маскирует ее.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Математика

+3 ещё

Средний
Как выбрать размеры интервалов для неравно интервального вариационного ряда?
- 1 подписчик
- 24 июн.
- 185 просмотров
2

ответа
Теория вероятностей

+1 ещё

Средний
Как посчитать вероятность по формуле Байеса в экспертной системе?
- нет подписчиков
- 25 янв.
- 104 просмотра
1

ответ
Математическая статистика

Средний
Как интерпретировать возникновение точки перегиба на графике дисперсии?
- 2 подписчика
- более года назад
- 170 просмотров
0

ответов
Нейронные сети

+2 ещё

Сложный
Как можно спрогнозировать событие, основываясь на существующие данные и исходы?
- 2 подписчика
- более года назад
- 227 просмотров
1

ответ
Математика

+2 ещё

Средний
Возможно ли математически поставить под сомнение принцип случайности при раздаче карт в дураке на телефоне?
- 1 подписчик
- более года назад
- 237 просмотров
2

ответа
Высшая математика

+1 ещё

Простой
Как высчитать аналитически ожидаемую просадку на выборке?
- 1 подписчик
- более года назад
- 47 просмотров
1

ответ
Математика

+2 ещё

Средний
Как сгенерировать случайные величины с заданной функцией распределения и коэффициентом корреляции??
- 3 подписчика
- более года назад
- 674 просмотра
1

ответ
Математика

+2 ещё

Средний
Как сгенерировать случайную величину с заданной многомерной функцией распределения?
- 2 подписчика
- более года назад
- 123 просмотра
1

ответ
Математическая статистика

Средний
Как определить большинство и меньшинство по числовой характеристике?
- 1 подписчик
- более двух лет назад
- 272 просмотра
5

ответов
Аналитика

+2 ещё

Сложный
Какие требование к данным для t теста?
- 1 подписчик
- более двух лет назад
- 143 просмотра
1

ответ
Показать ещё Загружается…

Java-разработчик (Spring Boot) для аудита проекта

OneLink

До 15 000 ₽

DevOps инженер

Data World • Москва

До 200 000 ₽

Tech Lead (CTO) iGaming

Cobalt Lab

от 4 000 $

Answer 1 · 2020-10-04 16:02:11

Что-то пытаюсь понять что вы написали.
Во-первых, надеюсь, что речь идет о критерии корреляции Пирсона.
Во-вторых, вовсе не обязательно, что в вашем пример второй результат "правильный". Наверное вам рассказывали, что кроме ЛЮБОГО статистического критерия можно - а скорее нужно, и даже нужно в первую очередь - рассчитывать его p_value. Вот, последний параметр как раз и предназначен для того, чтобы показать (если очень опримитивизировать) уверенность в ответе, при расчете которой и учитывается в том числе объем вашей выборки. А научных работах представление точечного значения оценочной статистики без указания p_value (или хотя-бы доверительного интервала) вообще считается недопустимым.
Современные пакеты считают его как правило сразу с коэффициентом корреляции (например, scipy.stats.pearsonr()). Можно чуть сложнее и в EXCEL посчитать.

Как сравнить коэффициенты корреляриции при разных размерах выборок?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт