Ответы пользователя по тегу Математическая статистика
  • Как посчитать популярность товара?

    xmoonlight
    @xmoonlight
    https://sitecoder.blogspot.com
    2-й вариант - наиболее правильный.
    Но надо помнить, что это итоговая по каждому товару - это не реальная популярность, а рассчитанная на конкретном множестве/наборе товаров.

    Настоящую реальную никак не посчитать, т.к нужно знать о существовании всех возможных позиций товаров, соответствующих заданной ЦА.
    Ответ написан
    Комментировать
  • Permutation test ( Пермутационный тест aka рандомизация aka точный тест). Условия применения?

    xmoonlight
    @xmoonlight
    https://sitecoder.blogspot.com
    Есть "размытая" вероятность на текущий момент, что один кандидат круче другого в 3 раза: 25%/75%.
    Нужно выяснить более точный процент их лидерства в большинстве случаев.

    Пермутационный тест предоставляет поиск сбалансированной средней при заданном количестве входных данных (более точной границы разделения, например: 35%/65%) с заданной точностью от всех процентных отношений за все проведённые тесты.

    Фактически, он выполняет сведение "разброса" показателей (одного теста) к одному наиболее вероятно-возможному значению (с помощью нескольких тестов), используя случайные входные данные.

    Применять можно там, где числовой фактический показатель измерения одного замеряемого выходного значения - не постоянен, а на меняющие его факторы - Вы не можете никак влиять (или избавиться от их влияния полностью).
    Ответ написан
    2 комментария
  • Как найти из статистики насколько один из показателей влияет на общую картину?

    xmoonlight
    @xmoonlight
    https://sitecoder.blogspot.com
    1. Напишите алгоритмом логику игры (модель) и прогоните пару ярдов раз с разными входными данными.
    2. Постройте график и сразу увидите: есть зависимость побед от кол-ва фор или нет.
    3. Если есть: разделите кол-во побед по каждому кол-ву фор на количество побед при игре без фор и получите прирост в долях. (1.5 => +50% и т.д.).
    Ответ написан
  • Сколько потребуется действий, чтобы случились все события?

    xmoonlight
    @xmoonlight
    https://sitecoder.blogspot.com
    3/100 - один раз самое редкое 3%-ое событие.
    Остальные - чаще.
    Перемножим, получим 0,0036% того, что все события произойдут.
    100/0.0036=27777.777(7)
    Округлим до целых в большую сторону: 27778 действий потребуется, чтобы совершились все события.
    Если перекрывающиеся (взаимозаменяемые) события: потребуется 6945 действий.
    Ответ написан
    2 комментария
  • Как рассчитать среднее значение на замкнутой шкале?

    xmoonlight
    @xmoonlight
    https://sitecoder.blogspot.com
    Сергей Соколов, понял, что мы ошибались...
    Всё проще: средняя сумма процентов всех углов.
    1. Если нужен ближайший разворот: то изначально зеркалируем углы относительно оси максимального расстояния: OX (т.е., все углы станут <180 градусов; 180 - это 0!).
    2. Градусы переводим в проценты и делим сумму процентов на общее количество значений.
    3. Полученное значение - средний процент.
    4. Процент переводим обратно в градусы и получаем искомое - средний градус всех азимутов.
    Ответ написан
  • Какую справедливую формулу можно использовать для вычисления истинной симпатии (лайки) к ответу на Тостере?

    xmoonlight
    @xmoonlight
    https://sitecoder.blogspot.com
    Попробую расписать наиболее понятно:
    1. Без лайков - конкурируют все, т.к. их ещё мало, но с неравной вероятностью: чем позже ответ получен, тем он ниже в списке и у него меньше шансов (что его прочитают).
    2. После любого лайка - этот ответ поднимается в самый верх и начинает конкурировать со следующими 2-мя стоящими под ним (по времени постинга).
    3. Как только собирается кластер (1-3 ответа с сильным отрывом от других) - остальным - почти без шансов.

    Затем:
    1. Если человек, задавший вопрос, понимает тему, он прочитает все и выберет решением 1 (реже 2) ответ ИЗ ВСЕХ!
    2. Если не понимает, то решением становится "всплывший" кластер (с максимальным кол-вом лайков).

    Исходя из этого алгоритма (процесса), нужно брать среднее время продолжительности чтения (T1) после открытия страницы с вопросом (и ухода со страницы без лайка) и среднее время продолжительности чтения до установки первых 2-х лайков (также, после открытия страницы с вопросом) разными людьми (T2).
    Затем взять среднее от этих 2-х средних: (T1+T2)/2
    И получим интервальный временной пик, при чтении первых двух ответов.
    Дальше - по кол-ву символов (по ответам-лидерам) высчитываем среднюю скорость чтения и, апроксимируя, высчитываем("выравниваем") время на лайк для каждого ответа (с первого и находящихся ниже).
    У теперь у нас есть 2 коэф.:
    T - время чтения при адекватном лайке на 1-ый и 2-ой ответы вместе (среднее там было)
    S - скорость чтения (кол-во символов за единицу времени) при адекватном лайке
    При лайке на нижестоящие - мы домножаем на время, чтобы нормировать к пику адекватного лайка.

    Дальше от пика - меньше балл.
    Ближе - больше балл.

    Вот и вся формула.
    Ответ написан
    Комментировать
  • Как определить статистическую достоверность?

    xmoonlight
    @xmoonlight
    https://sitecoder.blogspot.com
    1. Нужно найти все пересечения по всем возможным "срезам" (погода-возраст, количество-возраст, и т.д.) на результат и анти-результат.
    2. Найти пересечения всех срезов (процентное) для необходимого временного интервала.
    3. Высчитать достоверность показателя, исходя из количества пересекающихся "срезов": все пересеклись - 1.0 (100%), 3 из 5 - 0.6 (100/5*3=60%), и т.д.
    4. На основе полученных данных о достоверности - выполнить отсев показателей, находящихся вне доверительного интервала. Рекомендуемый: 0.7-0.85
    Ответ написан
    3 комментария
  • Как проверить нейросеть\отфильтровать обучающие данные?

    xmoonlight
    @xmoonlight
    https://sitecoder.blogspot.com
    Прежде, чем браться за такую работу, да ещё и с непонятными инструментами, нужно обладать знаниями по проектированию НС. Каждая задача специфична и может решаться разными способами при проектировании НС.
    Создание НС - это разработка модели посредством "чистой" математики и формул в 95% времени. И лишь 5% - кодирование алгоритма.
    Без фундаментальных знаний по НС - итог предсказуем.
    Надо вчера? -> фриланс.
    Ответ написан
    5 комментариев
  • Как найти период, доминирующий в серии timestamp'ов (с шумом)?

    xmoonlight
    @xmoonlight
    https://sitecoder.blogspot.com
    Задача решается достаточно просто:
    SOURCE: Array ( [0] => 13.1 [1] => 3 [2] => 4 [3] => 8 [4] => 17.9 [5] => 19 [6] => 23.1 [7] => 28 [8] => 33 )
    ------------
    SORTED: Array ( [0] => 3 [1] => 4 [2] => 8 [3] => 13.1 [4] => 17.9 [5] => 19 [6] => 23.1 [7] => 28 [8] => 33 )
    
    DISTANCE: Array ( [0] => 1 [1] => 4 [2] => 5.1 [3] => 4.8 [4] => 1.1 [5] => 4.1 [6] => 4.9 [7] => 5 )
    AVERAGE DISTANCE:3.75
    
    CLUSTERS:
    
    Array
    (
        [-] => Array
            (
                [data] => Array
                    (
                        [0] => 1
                        [1] => 1.1
                    )
    
                [max] => 1.1
                [min] => 1
            )
    
        [+] => Array
            (
                [data] => Array
                    (
                        [0] => 4
                        [1] => 5.1
                        [2] => 4.8
                        [3] => 4.1
                        [4] => 4.9
                        [5] => 5
                    )
    
                [max] => 5.1
                [min] => 4
            )
    
    )
    
    AVERAGE PERIOD POSITIVE [+]: 4.65
    AVERAGE PERIOD NEGATIVE [-]: 1.05
    RANGE [+]: [4.55; 5.1]
    
    3: 0, 1, 5, 10.1, 14.9, 16, 20.1, 25, 30, => 1
    4: 1, 0, 4, 9.1, 13.9, 15, 19.1, 24, 29, => 0
    8: 5, 4, 0, 5.1, 9.9, 11, 15.1, 20, 25, => 2
    13.1: 10.1, 9.1, 5.1, 0, 4.8, 5.9, 10, 14.9, 19.9, => 2
    17.9: 14.9, 13.9, 9.9, 4.8, 0, 1.1, 5.2, 10.1, 15.1, => 1
    19: 16, 15, 11, 5.9, 1.1, 0, 4.1, 9, 14, => 0
    23.1: 20.1, 19.1, 15.1, 10, 5.2, 4.1, 0, 4.9, 9.9, => 1
    28: 25, 24, 20, 14.9, 10.1, 9, 4.9, 0, 5, => 2
    33: 30, 29, 25, 19.9, 15.1, 14, 9.9, 5, 0, => 1
    ------------
    CHAINS:
    
    Array
    (
        [0] => 1
        [1] => 0
        [2] => 2
        [3] => 2
        [4] => 1
        [5] => 0
        [6] => 1
        [7] => 2
        [8] => 1
    )
    
    ------------
    RESULT:
    
    Array
    (
        [0] => 3
        [1] => 8
        [2] => 13.1
        [3] => 17.9
        [4] => 23.1
        [5] => 28
        [6] => 33
    )
    
    DISTANCE RESULT: Array ( [0] => 5 [1] => 5.1 [2] => 4.8 [3] => 5.2 [4] => 4.9 [5] => 5 )
    
    PERIOD (average): 5
    Ответ написан
    5 комментариев
  • Значимость выборки, где граница?

    xmoonlight
    @xmoonlight
    https://sitecoder.blogspot.com
    www.fdfgroup.ru/?id=189
    Процентная разница между параметрами должна находиться в интервале от 1/5 до 2/5.
    Интервалы оценки:
    0/5-1/5 - "шум" (50%)
    1/5-2/5 - "нет разницы" ("нет разницы" стремится к 100%)
    2/5-3/5 - "шум" (50%)
    3/5-4/5 - "существенная разница" ("существенная разница" стремится к 100%)
    4/5-5/5 - "шум" (50%)
    Все параметры из зоны "шум" - должны быть убраны.
    Ответ написан
    Комментировать
  • Зачем нужен доверительный интервал (CI) в статистике?

    xmoonlight
    @xmoonlight
    https://sitecoder.blogspot.com
    https://ru.wikipedia.org/wiki/%D0%94%D0%BE%D0%B2%D...
    Любые отклонения (значения вне этого интервала; например: помехи, накрутки, скликивания) - аннулируются и, соответственно, они не участвуют в последующих расчетах.
    Ответ написан
    Комментировать