Комментарии пользователя Максим Припадчев

Не работают кастомные tf.keras слои, что делаю не так?

Максим Припадчев @Maksim_64

версии, проверяй. У них иногда меняется API от версий к версиям.

Как сравнить datetime и полученную дату?

Максим Припадчев @Maksim_64

denisland, Ну видишь, у тебя просто set который содержит объект datetime конвертируй в список и возьми элемент.
d = list(time_w)[0] и все сравнивай потом.

Написано более двух лет назад

Как сравнить datetime и полученную дату?

Максим Припадчев @Maksim_64

у time_w, какой тип данных, set? сделай print(type(time_w)). И просто сделай print(time_w). Что бы глянуть на него.

Написано более двух лет назад

Каким способом посчитать частоту сигнала по нескольким сэмплам?

Максим Припадчев @Maksim_64

eegmak, Ну если шум минимальный, и самое главное стабильный то есть размер шума постоянный, то нейронка будет работать очень точно (при условии если собрать наблюдения частоты). В машинном обучении есть такое понятие как feature engineering (создание предикторов из сырых данных), так нейронные сети делают это за нас, и это единственный из всех алгоритмов которые это делают. Я к чему ваша функция это функция многих переменных и вы не знаете взаимотношей между ними, вы не знаете возможно из тех переменных что есть надо создать дополнительные переменные и эти дополнительные переменные послужат предикторами, так вот нейронки за счет нахождения полезных геометрических трансформаций в многомерном пространстве делают это лучше всех алгоритмов. Нейронные сети не интерпретируемы модели то есть в конце оно просто прогнозирует довольно точно но нельзя сформулировать взаимоотношение между отдельным предиктором и частотой. И когда это важно иметь возможность сформулировать взаимоотношения между отдельным предиктором и целью, то их не используют.

Написано более двух лет назад

Каким способом посчитать частоту сигнала по нескольким сэмплам?

Максим Припадчев @Maksim_64

eegmak,

Вот все таки мы говорим на разных языках. Я мыслю математически и пытаюсь классифицировать проблему, что бы осуществить подходящий подход к ее решению (если оно есть). Ты мыслишь, категориями специфичными для твоей области.

Ты говоришь, что проблема имеет вид.частота = F(наши данные) + E. И говоришь надо смоделировать F и ее параметры. При этом говоришь что не одного наблюдения частоты у нас нет. Задача не решаемая и никогда не будет решаемая. Если есть эти наблюдения, то это задача регрессии и решается она многими способами.

По твоим данным они мне не о чем не говорят перед нами временная последовательность. Мы можем декомпозировать ее, убрать из нее шум. Все это умеет прекрасно statsmodels а именно модуль tsa (time series analysis). https://www.statsmodels.org/stable/tsa.html. Все фильтры, трансформации, декомпозции и т.д. там есть еще и с хорошими примерами.

Написано более двух лет назад

Каким способом посчитать частоту сигнала по нескольким сэмплам?

Максим Припадчев @Maksim_64

eegmak, Есть данные на вход - есть некая неизвестная детерминистическая функция со стохастической составляющей и есть результат этой функции, но наблюдений по результату этой функции у нас нет. Задача смоделировать эту функцию. Мало данных. Нужно собрать данные которые видны через призму ацп и затем это задача регресии и решать ее можно чем угодно в том числе и нейронками.

Максимум, это можно произвести дискретизацию проблемы. То есть иметь не неприрывное значение частоты, а некие группы в разумных пределах, например 10 групп или меньше. То есть сделать unsupervised learning нейронки это тоже умеют.

Но сначла я бы сделал понижение размерности, scikit-learn это хорошо умеет (dimensionality reduction до 2) и просто визуализировал бы это дело, а вдруг там будет серьезный паттерн просматриваться.

Написано более двух лет назад

Каким способом посчитать частоту сигнала по нескольким сэмплам?

Максим Припадчев @Maksim_64

eegmak, То есть как я понял, у вас нет "примеров" самой частоты, есть некие данные которые вы "предполагаете" позволяют (предсказывать или даже посчитать) частоту?

Написано более двух лет назад

Почему с помощью Pandas не меняются данные в строке CSV файла?

Максим Припадчев @Maksim_64

barboskin93,

Могу по нему менять др. столбцы сразу все??

Сейчас перечитал, может не совсем правильно тебя понял. Но ты не обязан менять по одному полю, в коде уже предусмотрено, что пользователь может ввести одно имя колонки для изменений а может ввести несколько через запятую, затем он попросит ввести значения отдельно для каждой и все их обновит во фрейме.

Сразу все столбцы можно менять и без указания имен колонок. Например ты получил массив значений и его надо найти ряд под определенным индексом и заменить все. то это делается так.
df.loc[твой индекс, :] = твой массив. Массив должен быть такой длинны сколько колнок и значения должны быть в том же порядке потому что это со словарем мы по именно вставляем, здесь просто массивом.

Написано более двух лет назад

Почему с помощью Pandas не меняются данные в строке CSV файла?

Максим Припадчев @Maksim_64

barboskin93, Конечно, pandasдаже иерархические индексы поддерживает. Смотри когда я пишу df.loc[индекс, [имена колонок]] = словарь где ключи это имена колонок, он делает замену там. Например
df.loc['вася', ['возраст','доход'] = {возраст: 30, 'доход':250}, найдет индекс вася и заменит по указаннми колонкам, во фрейме колонок может больше чем две. Если такого индекса нет то он добвит новый ряд с таким индексом. При такой замене у тебя имена колонок должны быть ключами словаря, как у меня в примере, на самом деле я могу сделать подобную замену ну точно больше 5 разными способами.

В общем начни изучать pandas пригодится, повторюсь, если возможна работа в памяти фрейм это структура данных в памяти то он может все и я не преувеличиваю. И писать он может куда угодно в любую базу данных методом to_sql, в exel методом to_exel. И т.д.

Написано более двух лет назад

Как в Python можно изменить запись в CSV?

Максим Припадчев @Maksim_64

barboskin93, Отдельным вопросом, и показывай. Смотри я не знаю всех деталей по этому я состряпал пример от которого ты можешь оттолкнуться, потому что может быть много деталей, например а что если имя не уникальное, pandas разрешает не уникальные индексы и обновит все вхождения и т.д. Это я к слову у тебя другое, отдельным вопросом. pandas это самый мощный инструмент для манипуляции табулярных данных в экосистеме python, по этому что бы там ни было оно легко решаемо.

Написано более двух лет назад

Почему скрипт выдает разные результаты?

Максим Припадчев @Maksim_64

он ожидает: если
a - b = c то и
a - c = b
а нет никаких оснований предполагать, что такая операция, как в коде обладает такими математическими свойствами.

Написано более двух лет назад

Правильно ли я понимаю устройство классов в python?

Максим Припадчев @Maksim_64

Иса Бадруев, Это ничего сейчас лучше, что бы расти иметь более "узкие" вопросы. По типу вот небольшой кусок кода, ожидаю это будет работать так и так, а он работает иначе, или почему здесь это или то. Такие "абстрактные" вопросы, на текущий момент от них толку мало будет.

Написано более двух лет назад

Как определить большинство и меньшинство по числовой характеристике?

Максим Припадчев @Maksim_64

forced, Нет это нейронные сети. Вы собираетесь в ручную считать не средствами языка программирования? все эти алгоритмы есть в библиотеках и в ручную никто ничего не делает. Мне ваша таблица не о чем не говорит, я все делаю средствами языка программирования и работаю с ними.

Написано более двух лет назад

Как определить большинство и меньшинство по числовой характеристике?

Максим Припадчев @Maksim_64

forced, Ну и еще раз классификация мы уже имеем группы до анализа и хотим распределять. Кластеризация мы "находим" эти группы в данных мы не знаем сколько их мы пробуем может их две может их три и т.д мы ищем некую структуру кластеры. У вас группы известны заранее это классификация. Гуглите алгоритмы классификации, но увы датасет очень разбалансирован. То есть на много более вероятно, что студет в аудитории нежели гуляет, это будет осложнять обучение (если есть данные на чем обучаться и их в достаточном количестве). Если же обучение не пройдет тогда моделирование распределений его можно и на одних "допущениях" вывезти без данных.

Написано более двух лет назад

Как определить большинство и меньшинство по числовой характеристике?

Максим Припадчев @Maksim_64

forced, Кластеризация это задача на определение структуры данных (кластеров). Для деления их по группам. В мире машинного обучения есть деление supervised learning и unsupervised learning, кластеризация относится ко второму "обучение без учителя". k-means это один из алгоритмов для задач кластеризации.

1. Мы говорим о моделировании в любом случае и если что то работает как вам нужно значит это то что вам нужно. (Если кластеризация решает ваш вопрос значит используйте ее)

2. По гуглите тогда классификацию, если у вас например малое количество групп. Если группы две в которые надо классифицировать людей то logistic regression решит вопрос прекрасно, еще и будет высокая степень интерпретации модели.

3. Моделирование распределения дает вероятности нахождения в любом интервале которые вы можете использовать в дальнейшем для нахождения ожидаемого количества людей на любом интервале в то время как классификация используется для определения вероятности нахождения в той или иной группу может больше двух.

4. K-means может быть использован как для классификации так и для кластеризации. Но это разные вещи, кластеризация не сортирует по группам - она потенциально показывает структуру данных что оно возможно рассортировать по группам, по этому исходя из из условия как я его понял кластеризация может служить вспомогательным шагом но не решением.

5. Нужно ли это, смотрите сами, в чем конкретно задача иметь возможность раскидать по группам тогда можно посмотреть на кластеризацию и дальнейшую классификацию. Кластеризация это глянуть на структуру но не распределять распределять по группам это классификация.
Или иметь вероятности например какая вероятность нахождения одного человека в интервале 25-30 м. Получили вероятность затем умножили эту вероятность на общее количество людей округлили до целого и имеем ожидаемое количество людей в интервале, если в эту строну это моделирование распределения.

Итого:
1. распределять по группам это классификация (кластеризация как вспомогательный шаг, не факт что нужный).
2. На вход любой интервал на выход ожидаемое количество людей в интервале или вероятность как хочется это моделировать распределение.
Что вам подходит решать вам, я всей задачи не видел.

Написано более двух лет назад

Как определить большинство и меньшинство по числовой характеристике?

Максим Припадчев @Maksim_64

confidence intervals это про степень уверенности что определенный параметр модели лежит в определенном интервале.к детекции выбросов интервалы уверенности отношения не имеют, мы имеем модель будь то вероятностная модель или линейная регрессия какая нибудь, так вот в силу того что работаем мы с выборкой (sample), а не со всеми данными (population) то мы имеем интервалы уверенности относительно каждого параметра модели. Например простая линейная регрессия y = ax+b оценит два параметра a и b и по каждый будет в этом самом интервале уверенности, то же самое если модель вероятностная Normal, Uniform и т.д. А то о чем ты говоришь называется tolerance interval

Написано более двух лет назад

Как определить большинство и меньшинство по числовой характеристике?

Максим Припадчев @Maksim_64

forced, Хорошо, я сейчас отвечу на ваш вопрос, но мой ответ вас не обрадует, а скорее запутает.

Написано более двух лет назад

Как определить большинство и меньшинство по числовой характеристике?

Максим Припадчев @Maksim_64

forced, медиана никогда не охватит большинство. Вы сортируете ваши данные 50% процентов данных будет меньше медианы а 50% процентов больше медианы. Большинство это про перцентили. Вы сортируете данные и например 80% данных меньше этого числа это 80 процентов перцентиль.

Хотя лично, как я наблюдаю вашу задачу она не явно задана (я не могу сказать что я ее понял), то перцентили тут не причем.

Написано более двух лет назад

Как точность нейронной сети зависит от функции активации?

Максим Припадчев @Maksim_64

Евгений Лернер, Надо же, ну что же этот был последний ваш вопрос, на который я ответил.

Написано более двух лет назад

Почему увеличивается разрядность дробной части после округления в pandas?

Максим Припадчев @Maksim_64

6ReD6, можешь просто round сделать после выборки iloc. Можешь там же форматированной строкой. Можешь попробовать после всех вычислений round сделать может такое число не встретится, но нормальный правильный способом решать проблему. Это форматировать непосредственно ПЕРЕД репортом в том виде в котором требуется, а вычисления производить без всяких округлений.

Написано более двух лет назад

Войдите на сайт