он ожидает: если
a - b = c то и
a - c = b
а нет никаких оснований предполагать, что такая операция, как в коде обладает такими математическими свойствами.
Иса Бадруев, Это ничего сейчас лучше, что бы расти иметь более "узкие" вопросы. По типу вот небольшой кусок кода, ожидаю это будет работать так и так, а он работает иначе, или почему здесь это или то. Такие "абстрактные" вопросы, на текущий момент от них толку мало будет.
forced, Нет это нейронные сети. Вы собираетесь в ручную считать не средствами языка программирования? все эти алгоритмы есть в библиотеках и в ручную никто ничего не делает. Мне ваша таблица не о чем не говорит, я все делаю средствами языка программирования и работаю с ними.
forced, Ну и еще раз классификация мы уже имеем группы до анализа и хотим распределять. Кластеризация мы "находим" эти группы в данных мы не знаем сколько их мы пробуем может их две может их три и т.д мы ищем некую структуру кластеры. У вас группы известны заранее это классификация. Гуглите алгоритмы классификации, но увы датасет очень разбалансирован. То есть на много более вероятно, что студет в аудитории нежели гуляет, это будет осложнять обучение (если есть данные на чем обучаться и их в достаточном количестве). Если же обучение не пройдет тогда моделирование распределений его можно и на одних "допущениях" вывезти без данных.
forced, Кластеризация это задача на определение структуры данных (кластеров). Для деления их по группам. В мире машинного обучения есть деление supervised learning и unsupervised learning, кластеризация относится ко второму "обучение без учителя". k-means это один из алгоритмов для задач кластеризации.
1. Мы говорим о моделировании в любом случае и если что то работает как вам нужно значит это то что вам нужно. (Если кластеризация решает ваш вопрос значит используйте ее)
2. По гуглите тогда классификацию, если у вас например малое количество групп. Если группы две в которые надо классифицировать людей то logistic regression решит вопрос прекрасно, еще и будет высокая степень интерпретации модели.
3. Моделирование распределения дает вероятности нахождения в любом интервале которые вы можете использовать в дальнейшем для нахождения ожидаемого количества людей на любом интервале в то время как классификация используется для определения вероятности нахождения в той или иной группу может больше двух.
4. K-means может быть использован как для классификации так и для кластеризации. Но это разные вещи, кластеризация не сортирует по группам - она потенциально показывает структуру данных что оно возможно рассортировать по группам, по этому исходя из из условия как я его понял кластеризация может служить вспомогательным шагом но не решением.
5. Нужно ли это, смотрите сами, в чем конкретно задача иметь возможность раскидать по группам тогда можно посмотреть на кластеризацию и дальнейшую классификацию. Кластеризация это глянуть на структуру но не распределять распределять по группам это классификация.
Или иметь вероятности например какая вероятность нахождения одного человека в интервале 25-30 м. Получили вероятность затем умножили эту вероятность на общее количество людей округлили до целого и имеем ожидаемое количество людей в интервале, если в эту строну это моделирование распределения.
Итого:
1. распределять по группам это классификация (кластеризация как вспомогательный шаг, не факт что нужный).
2. На вход любой интервал на выход ожидаемое количество людей в интервале или вероятность как хочется это моделировать распределение.
Что вам подходит решать вам, я всей задачи не видел.
confidence intervals это про степень уверенности что определенный параметр модели лежит в определенном интервале.к детекции выбросов интервалы уверенности отношения не имеют, мы имеем модель будь то вероятностная модель или линейная регрессия какая нибудь, так вот в силу того что работаем мы с выборкой (sample), а не со всеми данными (population) то мы имеем интервалы уверенности относительно каждого параметра модели. Например простая линейная регрессия y = ax+b оценит два параметра a и b и по каждый будет в этом самом интервале уверенности, то же самое если модель вероятностная Normal, Uniform и т.д. А то о чем ты говоришь называется tolerance interval
forced, медиана никогда не охватит большинство. Вы сортируете ваши данные 50% процентов данных будет меньше медианы а 50% процентов больше медианы. Большинство это про перцентили. Вы сортируете данные и например 80% данных меньше этого числа это 80 процентов перцентиль.
Хотя лично, как я наблюдаю вашу задачу она не явно задана (я не могу сказать что я ее понял), то перцентили тут не причем.
6ReD6, можешь просто round сделать после выборки iloc. Можешь там же форматированной строкой. Можешь попробовать после всех вычислений round сделать может такое число не встретится, но нормальный правильный способом решать проблему. Это форматировать непосредственно ПЕРЕД репортом в том виде в котором требуется, а вычисления производить без всяких округлений.
Quvi, Ну видишь твой код не получает entry_id, потом дальше он не работает. Вопрос был как передать функцию с параметром, я тебе ответил. А это совершенно другое, откуда ты этот код брал там смотри.
Quvi, Нет это к вопросу отношения не имеет у тебя entry_id вместо того что ты там ожидаешь им тип None. entry_id = Entry(w).pack() вот тут можешь после этой строчки поставить print(type(entry_id)) должно быть None.
Ха, на код глянул а вопрос прочитать забыл, в самом вопросе ты же и говоришь что первая строка, которая headers в csv и теряется, а я подумал, может он не парсит какую то определенную строку из файла.
Eula123, Насчет кода, я не знаю. Твой вопрос был про логику. Я так понимаю это C#, так вот я на нем не одной строчки кода за всю жизнь не написал. Про код отдельным вопросом задай, и люди кто пишут на C# ответят и объяснят, что к чему.
Не много, задача не ясна, надо тебе конкретизировать, то есть взять пример массива и взять пример нескольких простых условий, для примера, что бы было легче конкретно ответить.
Я так понимаю, что нужно не проходить весь массив, а как только условие встречено, вернуть индекс и на том все. Быстрее всего должна быть numba (импортируешь декоратор и декорируешь функцию в которой ты тупо циклами for проходишься по массиву и если встретил условию то выход из функции). Если средствами numpy пробовать, то where или nonzero
utsiye, Код совсем не рабочий, он ничего не будет делать, там в нескольких местах откровенная глупость. Я просто думал мало ли может из какого то туториала такое прилетело. RNN используется для данных которые по своей природе представляют последовательность. Погода, Финансы, Речь и т.д. Другое дело из - за того что нейронки не интерпретируемые модели в мире финансовом они уступают по популярности линейным моделям. Насчет погоды полно хороших рабочих примеров например https://blog.paperspace.com/weather-forecast-using... . Погоду RNN может довольно не плохо предсказывать особенно на короткие дистанции. С этим кодом не трать время он мертвый. Одна функция "нормализации" чего стоит.
a - b = c то и
a - c = b
а нет никаких оснований предполагать, что такая операция, как в коде обладает такими математическими свойствами.