@Inzer

Как сравнить коэффициенты корреляриции при разных размерах выборок?

Добрый день.
Имеется 4 набора данных (строки) с нормальным распределением.
Количество элементов первых двух - 200, третьей и четвёртой - 205.
В питоне рассчитываю коэф. корреляции между первой и второй, третьей и четвёртой соответственно. Необходимо выбрать одну пару из двух по значению коэффициента. Получаю r12=0,9999, r34=0,9998. Правильным выбором будет 3-4. В случае, если коэф. корреляции больше или равен и количество элементов больше у одной и той же пары, проблем не возникает.
Есть какие-либо критерии достоверности (значимости) r в зависимости от размера выборки? Оптимальным был бы какой-то интегральный признак.
Значения приведены для примера, бывают разные, поэтому некую дельту (допуск) брать не получится. Сначала сравнивать размер строк тоже не работает.
  • Вопрос задан
  • 81 просмотр
Решения вопроса 1
@dmshar
Что-то пытаюсь понять что вы написали.
Во-первых, надеюсь, что речь идет о критерии корреляции Пирсона.
Во-вторых, вовсе не обязательно, что в вашем пример второй результат "правильный". Наверное вам рассказывали, что кроме ЛЮБОГО статистического критерия можно - а скорее нужно, и даже нужно в первую очередь - рассчитывать его p_value. Вот, последний параметр как раз и предназначен для того, чтобы показать (если очень опримитивизировать) уверенность в ответе, при расчете которой и учитывается в том числе объем вашей выборки. А научных работах представление точечного значения оценочной статистики без указания p_value (или хотя-бы доверительного интервала) вообще считается недопустимым.
Современные пакеты считают его как правило сразу с коэффициентом корреляции (например, scipy.stats.pearsonr()). Можно чуть сложнее и в EXCEL посчитать.
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы