Как определить статистическую достоверность?

Question

Олег Петров @Smeilz1

За любое развитие

Математическая статистика

Как определить статистическую достоверность?

Моя программа делает выборки от 1 до 30000 значений из базы данных, каждое из которых может быть случайно с определенной долей вероятности.
Например вчера рыбаки ловили рыбу.
Первый поймал 10 рыб.
Второй - 50 рыб
Третий -20 рыб
И так далее.
У меня есть различные входными показатели погоды, условий, возраста и так далее.
Я делаю различные выборки из базы с разными входными показателями, но если выборка будет всего несколько ситуаций, то высока вероятность того, что рыбакам просто везло и никакой зависимости между входными данными и уловом нет, если взять слишком много ситуаций, то я найду слишком мало взаимосвязей.
Как определить золотую середину?
Я хочу чтобы найденные мной взаимосвязи имели отклонения не более 3-4% в связи со случайными данными, но не знаю как это грамотно называется.
То есть я нашел, что у рыбаков от 50 лет и при времени улова до 12:00 часов дня, улов превышает средний на 80%.
Так вот я хочу, чтобы эти найденные мной 80% были случайными не более,чем на 3-4%, надеюсь я понятно выразил мысль.
Подскажите как это называется и как мне посчитать достаточное количество случаев для моей задачи?

Вопрос задан более трёх лет назад
192 просмотра

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Аналитик данных

7 месяцев

Далее
Академия Эдюсон

Аналитик данных + стажировка

6 месяцев

Далее
ProductStar × РБК

Профессия: Аналитик данных + ИИ

12 месяцев

Далее

Решения вопроса 1

3 комментария

Олег Петров @Smeilz1 Автор вопроса

Спасибо, как раз то, что я искал. Но есть одно но, по первому пункту.
Представьте, что это такая сложная игра как покер, и количество срезов огромно.
Например я играю против оппонента. Обычно он сбрасывает карты в 50% случаев, но:
Если пришла определенная карта или несколько карт от [2 До Туза], то он сбросит чаще или реже
Если до нашего действие было определенное действие или набор действий от [1 до 10] то он сбросит чаще или реже
Если он думал x секунд от [0 До 10] то он сбросит чаще или реже
И другие факторы.

Так вот если мы пробуем перебрать все возможные факторы или сочетания факторов, то получаем годы перебора. =)
Я взял библиотеку genetic_evolution для Python и настроил ее так, чтобы fintes-функцией было например вероятность сброса карт более 85% и получил неплохие срезы, но как быть, если нам нужно получить матрицу срезов.
Например, оппонент сбросил карты:
0-30% - Наборы факторов k,l,m...
30-70% - Наборы факторов n,o,p
70-10% -Наборы факторов r,s,t
Может есть способ лучше и удобней для этих задач?

Написано более трёх лет назад
xmoonlight @xmoonlight

Олег Петров, надо входные данные и выходные (от библиотеки generic_evolution) прогнать через сеть Коско (обучить) для выявления (сопоставления) комбинаций факторов нужным кластерам.

Написано более трёх лет назад
Олег Петров @Smeilz1 Автор вопроса

xmoonlight, Спасибо почитаю, в первый раз слышу о ней.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Машинное обучение

+1 ещё

Простой
Какие темы в статистике нужно изучить прежде всего, чтобы начать решать простые задачи машинного обучения?
- 2 подписчика
- 25 мая
- 202 просмотра
2

ответа
Математическая статистика

Простой
Как посчитать серьёзность отклонения числа от набора других чисел?
- 2 подписчика
- 30 янв.
- 260 просмотров
2

ответа
Математика

+3 ещё

Средний
Как выбрать размеры интервалов для неравно интервального вариационного ряда?
- 1 подписчик
- 24 июн. 2025
- 202 просмотра
2

ответа
Теория вероятностей

+1 ещё

Средний
Как посчитать вероятность по формуле Байеса в экспертной системе?
- нет подписчиков
- более года назад
- 106 просмотров
1

ответ
Математическая статистика

Средний
Как интерпретировать возникновение точки перегиба на графике дисперсии?
- 2 подписчика
- более года назад
- 175 просмотров
0

ответов
Нейронные сети

+2 ещё

Сложный
Как можно спрогнозировать событие, основываясь на существующие данные и исходы?
- 2 подписчика
- более года назад
- 236 просмотров
1

ответ
Математика

+2 ещё

Средний
Возможно ли математически поставить под сомнение принцип случайности при раздаче карт в дураке на телефоне?
- 1 подписчик
- более двух лет назад
- 239 просмотров
2

ответа
Высшая математика

+1 ещё

Простой
Как высчитать аналитически ожидаемую просадку на выборке?
- 1 подписчик
- более двух лет назад
- 48 просмотров
1

ответ
Математика

+2 ещё

Средний
Как сгенерировать случайные величины с заданной функцией распределения и коэффициентом корреляции??
- 3 подписчика
- более двух лет назад
- 683 просмотра
1

ответ
Математика

+2 ещё

Средний
Как сгенерировать случайную величину с заданной многомерной функцией распределения?
- 2 подписчика
- более двух лет назад
- 125 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2018-10-02 19:41:42

1. Нужно найти все пересечения по всем возможным "срезам" (погода-возраст, количество-возраст, и т.д.) на результат и анти-результат.
2. Найти пересечения всех срезов (процентное) для необходимого временного интервала.
3. Высчитать достоверность показателя, исходя из количества пересекающихся "срезов": все пересеклись - 1.0 (100%), 3 из 5 - 0.6 (100/5*3=60%), и т.д.
4. На основе полученных данных о достоверности - выполнить отсев показателей, находящихся вне доверительного интервала. Рекомендуемый: 0.7-0.85

Answer 2 · 2017-11-18 10:39:41

Alexej Simakov @lxsmkv

Test automation engineer

похоже на "доверительный интервал"

Ответ написан более трёх лет назад

1 комментарий

Как определить статистическую достоверность?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт