Ответы пользователя xmoonlight по тегу «Математическая статистика»

Как посчитать популярность товара?

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

2-й вариант - наиболее правильный.
Но надо помнить, что это итоговая по каждому товару - это не реальная популярность, а рассчитанная на конкретном множестве/наборе товаров.

Настоящую реальную никак не посчитать, т.к нужно знать о существовании всех возможных позиций товаров, соответствующих заданной ЦА.

Ответ написан более трёх лет назад

Комментировать

Permutation test ( Пермутационный тест aka рандомизация aka точный тест). Условия применения?

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

Есть "размытая" вероятность на текущий момент, что один кандидат круче другого в 3 раза: 25%/75%.
Нужно выяснить более точный процент их лидерства в большинстве случаев.

Пермутационный тест предоставляет поиск сбалансированной средней при заданном количестве входных данных (более точной границы разделения, например: 35%/65%) с заданной точностью от всех процентных отношений за все проведённые тесты.

Фактически, он выполняет сведение "разброса" показателей (одного теста) к одному наиболее вероятно-возможному значению (с помощью нескольких тестов), используя случайные входные данные.

Применять можно там, где числовой фактический показатель измерения одного замеряемого выходного значения - не постоянен, а на меняющие его факторы - Вы не можете никак влиять (или избавиться от их влияния полностью).

Ответ написан более трёх лет назад

2 комментария

Как найти из статистики насколько один из показателей влияет на общую картину?

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

1. Напишите алгоритмом логику игры (модель) и прогоните пару ярдов раз с разными входными данными.
2. Постройте график и сразу увидите: есть зависимость побед от кол-ва фор или нет.
3. Если есть: разделите кол-во побед по каждому кол-ву фор на количество побед при игре без фор и получите прирост в долях. (1.5 => +50% и т.д.).

Ответ написан более трёх лет назад

2 комментария

Сколько потребуется действий, чтобы случились все события?

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

3/100 - один раз самое редкое 3%-ое событие.
Остальные - чаще.
Перемножим, получим 0,0036% того, что все события произойдут.
100/0.0036=27777.777(7)
Округлим до целых в большую сторону: 27778 действий потребуется, чтобы совершились все события.
Если перекрывающиеся (взаимозаменяемые) события: потребуется 6945 действий.

Ответ написан более трёх лет назад

2 комментария

Как рассчитать среднее значение на замкнутой шкале?

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

Сергей Соколов, понял, что мы ошибались...
Всё проще: средняя сумма процентов всех углов.
1. Если нужен ближайший разворот: то изначально зеркалируем углы относительно оси максимального расстояния: OX (т.е., все углы станут <180 градусов; 180 - это 0!).
2. Градусы переводим в проценты и делим сумму процентов на общее количество значений.
3. Полученное значение - средний процент.
4. Процент переводим обратно в градусы и получаем искомое - средний градус всех азимутов.

Ответ написан более трёх лет назад

13 комментариев

Какую справедливую формулу можно использовать для вычисления истинной симпатии (лайки) к ответу на Тостере?

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

Попробую расписать наиболее понятно:
1. Без лайков - конкурируют все, т.к. их ещё мало, но с неравной вероятностью: чем позже ответ получен, тем он ниже в списке и у него меньше шансов (что его прочитают).
2. После любого лайка - этот ответ поднимается в самый верх и начинает конкурировать со следующими 2-мя стоящими под ним (по времени постинга).
3. Как только собирается кластер (1-3 ответа с сильным отрывом от других) - остальным - почти без шансов.

Затем:
1. Если человек, задавший вопрос, понимает тему, он прочитает все и выберет решением 1 (реже 2) ответ ИЗ ВСЕХ!
2. Если не понимает, то решением становится "всплывший" кластер (с максимальным кол-вом лайков).

Исходя из этого алгоритма (процесса), нужно брать среднее время продолжительности чтения (T1) после открытия страницы с вопросом (и ухода со страницы без лайка) и среднее время продолжительности чтения до установки первых 2-х лайков (также, после открытия страницы с вопросом) разными людьми (T2).
Затем взять среднее от этих 2-х средних: (T1+T2)/2
И получим интервальный временной пик, при чтении первых двух ответов.
Дальше - по кол-ву символов (по ответам-лидерам) высчитываем среднюю скорость чтения и, апроксимируя, высчитываем("выравниваем") время на лайк для каждого ответа (с первого и находящихся ниже).
У теперь у нас есть 2 коэф.:
T - время чтения при адекватном лайке на 1-ый и 2-ой ответы вместе (среднее там было)
S - скорость чтения (кол-во символов за единицу времени) при адекватном лайке
При лайке на нижестоящие - мы домножаем на время, чтобы нормировать к пику адекватного лайка.

Дальше от пика - меньше балл.
Ближе - больше балл.

Вот и вся формула.

Ответ написан более трёх лет назад

Комментировать

Как определить статистическую достоверность?

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

1. Нужно найти все пересечения по всем возможным "срезам" (погода-возраст, количество-возраст, и т.д.) на результат и анти-результат.
2. Найти пересечения всех срезов (процентное) для необходимого временного интервала.
3. Высчитать достоверность показателя, исходя из количества пересекающихся "срезов": все пересеклись - 1.0 (100%), 3 из 5 - 0.6 (100/5*3=60%), и т.д.
4. На основе полученных данных о достоверности - выполнить отсев показателей, находящихся вне доверительного интервала. Рекомендуемый: 0.7-0.85

Ответ написан более трёх лет назад

3 комментария

Как проверить нейросеть\отфильтровать обучающие данные?

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

Прежде, чем браться за такую работу, да ещё и с непонятными инструментами, нужно обладать знаниями по проектированию НС. Каждая задача специфична и может решаться разными способами при проектировании НС.
Создание НС - это разработка модели посредством "чистой" математики и формул в 95% времени. И лишь 5% - кодирование алгоритма.
Без фундаментальных знаний по НС - итог предсказуем.
Надо вчера? -> фриланс.

Ответ написан более трёх лет назад

5 комментариев

Как найти период, доминирующий в серии timestamp'ов (с шумом)?

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

Задача решается достаточно просто:

SOURCE: Array ( [0] => 13.1 [1] => 3 [2] => 4 [3] => 8 [4] => 17.9 [5] => 19 [6] => 23.1 [7] => 28 [8] => 33 )
------------
SORTED: Array ( [0] => 3 [1] => 4 [2] => 8 [3] => 13.1 [4] => 17.9 [5] => 19 [6] => 23.1 [7] => 28 [8] => 33 )

DISTANCE: Array ( [0] => 1 [1] => 4 [2] => 5.1 [3] => 4.8 [4] => 1.1 [5] => 4.1 [6] => 4.9 [7] => 5 )
AVERAGE DISTANCE:3.75

CLUSTERS:

Array
(
    [-] => Array
        (
            [data] => Array
                (
                    [0] => 1
                    [1] => 1.1
                )

            [max] => 1.1
            [min] => 1
        )

    [+] => Array
        (
            [data] => Array
                (
                    [0] => 4
                    [1] => 5.1
                    [2] => 4.8
                    [3] => 4.1
                    [4] => 4.9
                    [5] => 5
                )

            [max] => 5.1
            [min] => 4
        )

)

AVERAGE PERIOD POSITIVE [+]: 4.65
AVERAGE PERIOD NEGATIVE [-]: 1.05
RANGE [+]: [4.55; 5.1]

3: 0, 1, 5, 10.1, 14.9, 16, 20.1, 25, 30, => 1
4: 1, 0, 4, 9.1, 13.9, 15, 19.1, 24, 29, => 0
8: 5, 4, 0, 5.1, 9.9, 11, 15.1, 20, 25, => 2
13.1: 10.1, 9.1, 5.1, 0, 4.8, 5.9, 10, 14.9, 19.9, => 2
17.9: 14.9, 13.9, 9.9, 4.8, 0, 1.1, 5.2, 10.1, 15.1, => 1
19: 16, 15, 11, 5.9, 1.1, 0, 4.1, 9, 14, => 0
23.1: 20.1, 19.1, 15.1, 10, 5.2, 4.1, 0, 4.9, 9.9, => 1
28: 25, 24, 20, 14.9, 10.1, 9, 4.9, 0, 5, => 2
33: 30, 29, 25, 19.9, 15.1, 14, 9.9, 5, 0, => 1
------------
CHAINS:

Array
(
    [0] => 1
    [1] => 0
    [2] => 2
    [3] => 2
    [4] => 1
    [5] => 0
    [6] => 1
    [7] => 2
    [8] => 1
)

------------
RESULT:

Array
(
    [0] => 3
    [1] => 8
    [2] => 13.1
    [3] => 17.9
    [4] => 23.1
    [5] => 28
    [6] => 33
)

DISTANCE RESULT: Array ( [0] => 5 [1] => 5.1 [2] => 4.8 [3] => 5.2 [4] => 4.9 [5] => 5 )

PERIOD (average): 5

Ответ написан более трёх лет назад

5 комментариев

Значимость выборки, где граница?

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

www.fdfgroup.ru/?id=189
Процентная разница между параметрами должна находиться в интервале от 1/5 до 2/5.
Интервалы оценки:
0/5-1/5 - "шум" (50%)
1/5-2/5 - "нет разницы" ("нет разницы" стремится к 100%)
2/5-3/5 - "шум" (50%)
3/5-4/5 - "существенная разница" ("существенная разница" стремится к 100%)
4/5-5/5 - "шум" (50%)
Все параметры из зоны "шум" - должны быть убраны.

Ответ написан более трёх лет назад

Комментировать

Зачем нужен доверительный интервал (CI) в статистике?

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

https://ru.wikipedia.org/wiki/%D0%94%D0%BE%D0%B2%D...
Любые отклонения (значения вне этого интервала; например: помехи, накрутки, скликивания) - аннулируются и, соответственно, они не участвуют в последующих расчетах.

Ответ написан более трёх лет назад

Комментировать

Войдите на сайт