Как сравнить коэффициенты корреляриции при разных размерах выборок?
Добрый день.
Имеется 4 набора данных (строки) с нормальным распределением.
Количество элементов первых двух - 200, третьей и четвёртой - 205.
В питоне рассчитываю коэф. корреляции между первой и второй, третьей и четвёртой соответственно. Необходимо выбрать одну пару из двух по значению коэффициента. Получаю r12=0,9999, r34=0,9998. Правильным выбором будет 3-4. В случае, если коэф. корреляции больше или равен и количество элементов больше у одной и той же пары, проблем не возникает.
Есть какие-либо критерии достоверности (значимости) r в зависимости от размера выборки? Оптимальным был бы какой-то интегральный признак.
Значения приведены для примера, бывают разные, поэтому некую дельту (допуск) брать не получится. Сначала сравнивать размер строк тоже не работает.
Что-то пытаюсь понять что вы написали.
Во-первых, надеюсь, что речь идет о критерии корреляции Пирсона.
Во-вторых, вовсе не обязательно, что в вашем пример второй результат "правильный". Наверное вам рассказывали, что кроме ЛЮБОГО статистического критерия можно - а скорее нужно, и даже нужно в первую очередь - рассчитывать его p_value. Вот, последний параметр как раз и предназначен для того, чтобы показать (если очень опримитивизировать) уверенность в ответе, при расчете которой и учитывается в том числе объем вашей выборки. А научных работах представление точечного значения оценочной статистики без указания p_value (или хотя-бы доверительного интервала) вообще считается недопустимым.
Современные пакеты считают его как правило сразу с коэффициентом корреляции (например, scipy.stats.pearsonr()). Можно чуть сложнее и в EXCEL посчитать.
Спасибо! Буду копать в этом направлении.
Отвечая на вопросы и замечания:
1. Да, использую критерий Пирсона.
2. Я знаю, что в конкретном случае второй ответ правильный, т.к. решал эту задачу другим методом, не связанным с мат. статистикой.
3. В нашей вики сказано, что ''Использование p-значений...нередко приводит к ошибкам первого рода''. Никак не могу прокомментировать.
С уважением.
Рад, что помог. Кстати, для справки. На этом форуме благодарность принято выражать в виде нажатия клавиши "нравится" под вопросом. А если ответ вы принимаете - то тоже, нажатием клавиши "Ответить решением".
Любой метод всегда приводит к ошибкам. Наличие p-values помогает хотя-бы этот вопрос проконтролировать. Можно, конечно, ограничится доверительными интервалами. Но это не решает проблемы, а лишь маскирует ее.