• Симплекс метод нахождение минимума в Python?

    Maksim_64
    @Maksim_64
    Data Analyst
    смотрите вы в проблеме не указали условие а только коэффициенты. То есть ваша полная задача как выглядит примерно так:
    min z = -1 * x1 -2*x2 - это функция для минимизации.

    второе условие:
    1 * x1 + 3*x2 >= или <= вы не указали 9
    1*x1 + 1*x2 >= или <= вы не указали 5

    нужно помнить что функция linprog принимает только форму <= Сооответственно, если условие в вашей задаче <= Ваш код работает верно и находит МИНИМУМ, если же условие вашей задачи >= тогда конвертируйте A в numpy и умножьте на -1 то же самое сделайте с b ну а коэффициенты с не трогайте. И вы получите ваши минимумы.
    в ваших результатах вектор x это коэффициенты минимизирующие систему неравенств а значение fun. Это оптимальное значение для линейной функции которую вы минимизируете.
    В итоге если знак в задаче <= оставляем все как есть.
    Если знак в задаче >= умножаем A на -1 и b на -1.
    Все остальное верно.
    Ответ написан
    Комментировать
  • Как правильно обработать статистику опроса о маршрутах транспорта?

    Maksim_64
    @Maksim_64
    Data Analyst
    Первое надо быть уверенными что дизайн опроса был составлен согласно математической статистике. Существует несколько направлений случайно выборки.
    Например:
    1. простая случайная выборка (каждый имеет равный шанс быть выбранным для участия в опросе)
    2. случайная выборка где предварительно участники опроса были разбиты на группы например по возрасту, полу, и.т.п и веса в выборке становятся процентами размера группы от общего количества.
    3. Кластерная например (это когда люди разбиты на группы и потом еще и группы выбираются случайно)
    и т.д.
    Если эксперимент не был организован как нужно то интерпретировать нечего.
    Если я вас правильно понял то выборка была произведена через сайт Госуслуги.
    Авторизация была через Госуслуги, поэтому исключаем вопрос накрутки и подтасовки для данной ситуации..

    Я не считаю данную выборку репрезентативной (она лишь может служить одной из групп). Задаете вопрос на улице (одна группа) на Госуслугах (другая) может опрос по телефону кого нет на Госуслугах (третья).
    Одна и целей статистики это делать выводы имея данные относительно малой группы участников эксперимента о большой. И что бы это осуществить выборка должна быть репрезентативной. В данном случае "большая" группа это люди зарегистрированные на Госуслугах жители Ставрополя а цель делать выводы о мнении Жителей города Ставрополя пользующихся общественным транспортом. То есть дизайн эксперимента построен не корректно и выводов делать нельзя.

    Если я вас не правильно понял и дизайн эксперимента составлен корректно. Какие возможны выводы.
    Самый очевидный 48 маршрут самый популярный (востребованный) 24% процента респондентов проголосовали за него (независимо от результата лучший или худший) то есть он самый востребованный это то место где должна быть проведена дополнительная работа.
    По поводу гипотез да можно у вас есть дистрибуция данных т.е. все необходимые статистики для соответствующих тестов легко находятся из этих данных.
    По поводу весов опять таки да при условии что респонденты были разбиты на группы.
    Но это все актуально если дизайн эксперимента сделан корректно. По этому поводу я высказался вначале.
    Ответ написан
    2 комментария
  • Как создать бот, определяющий сколько дней осталось до дня рождения (при нажатии СТАРТ дата запрашивается в произвольном формате (д-м-г)?

    Maksim_64
    @Maksim_64
    Data Analyst
    вот код решающий проблему. Под api вашего бота построите сами.
    test_date = input("Ввведите дату в формате 'dd-mm-yyyy': ")
    now = datetime.datetime.now()
    then = datetime.datetime.strptime(test_date, "%d-%m-%Y")
    delta1 = datetime.datetime(now.year, then.month, then.day)
    delta2 = datetime.datetime(now.year+1, then.month, then.day)
    
    result = ((delta1 if delta1 > now else delta2) - now).days
    print(f'До вашего следущего дня рождения осталось {result} дней')


    Так же вы не уточнили что делать если день рождение сегодня, это 0 дней или 364 ну легко подработаете как вам будет удобно.
    Ответ написан
    4 комментария
  • Почему ResNet дает слишком хорошие результаты?

    Maksim_64
    @Maksim_64
    Data Analyst
    На практике такие метрики могут означать лишь одно вы тренируете и тестируете на одних и тех же данных. Первое место для проверки
    test_dataset = ASDataset(client_file="raw/client_train_raw.txt", imposter_file="raw/imposter_train_raw.txt", \
        transforms=preprocess)
    train_dataset = ASDataset(client_file="raw/client_test_raw.txt", imposter_file="raw/imposter_test_raw.txt", \
        transforms=preprocess)
    train_dataloader = DataLoader(train_dataset, batch_size=128, shuffle=True)
    test_dataloader = DataLoader(test_dataset, batch_size=128, shuffle=True)

    второе место для проверки естественно сам класс DataLoader.
    ну и третье сами файлы что бы по запарке они не содержали одно и тоже содержимое.

    В каком случае возможны такие метрики ну например данные на которых вы учитесь в них входная переменная это температура в цельсии а то что нужно "предсказать" температура в фаренгейтах. Ваши тестовые данные по структуре такие же но сам датасет алгоритм никогда не видел. На тех данных что алгоритм тренировался он благополучно выучит школьную формулу перевода из цельсии в фаренгейты и справится со 100 точностью. По простой причине в данная проблема состоит только из детерминистической составляющей, т.е вариативность отсутствует. (Данный пример специально примитивен. Это может и Unsupervised Learning это может задача где на вход "features" пойдут десятки переменных и.т.д лишь бы отсутствовала вариативность). Подобные примеры как этот будут выдавать такие метрики.
    Ответ написан
    Комментировать
  • Как узнать изначальную стоимость из стоимости с комиссией?

    Maksim_64
    @Maksim_64
    Data Analyst
    1. Используете более удобный способ подсчета стоимости с комиссией: 78 * (1 + 0.03) = 78 * 1.03 = 80.34
    2. Теперь составляем элементарное школьное уравнение
    x * 1.03 = 80.34
    x = 80.34 / 1.03
    x = 78
    Ответ написан
    Комментировать
  • Почему в Python не импортируется библиотека python-docx?

    Maksim_64
    @Maksim_64
    Data Analyst
    Если не каких ошибок во время инсталяции не выдало, то скорее всего причина в том что устанавливает он ее в другое окружение. Например я сейчас установил данную библиотеку используяpip и она работает все нормально. если я запускаю pip show python-docxиз окружения которое использует моя IDE то он мне показывает путь и всю информацию, если же я запущу pip show python-docx из терминала где окружение другое он выдает что данная библиотека не найдена. То есть у вас проблема в окружении (вы установили библиотеку в одно окружение а импортируете из другого)
    Ответ написан
    2 комментария
  • Почему Python adf работает хуже чем R adf?

    Maksim_64
    @Maksim_64
    Data Analyst
    1. По поводу скорости, даже на дефолтных параметрах функции выглядит подозрительно. 10 минут подозрительно. Что влияет на скорость, параметр maxlag, это параметр на сколько максимально наблюдений назад смотрит алгоритм при проведении теста. по умолчанию он равен. 12 * (количество наблюдений / 100 )**(1/4), в вашем случае это 101 наблюдение. Если уменьшить это значение тест выполнится быстрее. Нужно ли это делать? это зависит от контекста проблемы. Например если бы это была финансовая ts с дневной частотой то maxlag = 101, не имеет никакого смысла его можно было уменьшить скажем до 10 а то и еще меньше.

    2. Относительно python vs R. Если брать какие то специфические моменты в особенности тесты, библиотеки R попросту на порядок превзойдут библиотеки python (на сегодняшний момент). Но при создании проекта это далеко не все. Создать поддерживаемую базу кода на python значительно легче чем на R. Коммунити python значительно больше это значит, где будет python а где R скажем через 5 лет, сколько новых фреймворков появится какая новая инфраструктура будет создана и т.д. R крутой нишевый инструмент. И если смотреть на короткие готовые решения скажем в области анализа ts он попросту круче. Если строить проект который включает в себя анализ ts, многие однозначно выберут python.
    Ответ написан
    Комментировать
  • Как распарсить датафрейм в пандас, когда сзначеним одной колонки являются словарь?

    Maksim_64
    @Maksim_64
    Data Analyst
    Поле Tuples имеет dtype, 'Object', что в pandas (малость упрощая) эквивалентно str. В pandas есть aкссесор str для того что бы применять по элементно функции строк python, регулярные выражения и т.д. синтаксис элементарный.
    df['Tuples'].str.some_method()
    распарсите строку и все. Если вы ищете готовое решение, то это во фриланс. Вы должны предоставить код в котором вы пытаетесь решить проблему, но не получается. Направление для начала написания такого кода я вам подсказал.
    Ответ написан
    Комментировать
  • Удаление первых двух цифр после точки?

    Maksim_64
    @Maksim_64
    Data Analyst
    Если тип данных у 0.00009011 str, проблем нет вообще.
    s = '0.00009011'
    first, second = s.split('.')
    result = first + '.' + second[2:-2]
    print(result)

    Если же данные поступают в формате flaot нас ждет проблема, если мы конвертируем float в str мы получим str в научном виде неудобном для парсинга, если же мы будем использовать чистый python для выведения float в научном виде нам нужно зафиксировать количество символов сколько мы будем форматировать псевдо код будет такой
    float_number = 0.0000550034
    print(f"{float_number:.nf}")

    но n для каждого поступления нового числа свое и мы не сможем удалять первые и последние две цифры.
    в библиотеке numpy есть решение данной проблемы
    import numpy as np
    number = 0.00009011
    first, second = str(np.format_float_positional(number,trim='-')).split('.')
    result = first + '.' + second[2:-2]
    print(result)
    здесь в отличии от первого случая тип наших float но проблема все равно решается.
    Ответ написан
    3 комментария
  • Почему в random.choice() ошибка?

    Maksim_64
    @Maksim_64
    Data Analyst
    Вы должны конвертировать словарь, в лист где каждый элемент кортеж и тогда уже случайно выбирать.
    random.choice(list(a.items()))
    Ответ написан
    Комментировать
  • Почему не работает код на python?

    Maksim_64
    @Maksim_64
    Data Analyst
    Исправь в соответствующих местах в своем коде на следующее:
    the_sex.lower() == 'мужской'
    the_sex.lower() == 'женский'
    the_aim.lower() =='похудение'
    the_aim.lower() == 'увеличение мышечной массы'
    the_aim.lower() == 'поддержание веса'
    the_fitnes in [1,2,3]
    the_fitnes in [4,5,6]

    Дальше надо смотреть может что то еще всплывет при такой общей конструкции кода проблем избежать трудно.
    Ответ написан
    Комментировать
  • Какие метрики можно рассчитать для анализа данных авиаперевозок?

    Maksim_64
    @Maksim_64
    Data Analyst
    Это очень большой вопрос, который требует большего погружения в проблему. Метрикой в рамках data analyst, называется измерения которые имеют бизнес контекст. Нахождение метрик а в последствии и KPI (Key Performance Indicators), это одна из целей анализа. И просто посмотрев на базу данных не проводя даже EDA (Explanatory Data Analysis) невозможно даже начать отвечать на данный вопрос. Я бы начал c EDA. Затем попробовал бы почитать какие метрики используют в этой сфере.
    Ответ написан
    Комментировать
  • Как вывести ссылки на всех авторов с этой страницы?

    Maksim_64
    @Maksim_64
    Data Analyst
    код рабочий в принципе немного подкорректируй последнюю часть и все
    try:
        print(a.find('a')['href'])
    except TypeError:
        pass

    добавь эту конструкцию в тело цикла for и все проверил выводит ровно все 147 ссылок.
    Ответ написан
    2 комментария
  • Как оптимизировать алгоритм SlopeOne в python?

    Maksim_64
    @Maksim_64
    Data Analyst
    По скольку нет полного датафрейма я не могу полностью сформировать рабочий ответ. Но основываясь на вашем коде вот какая главная мысль.
    Не каких for в pandas абсолютно любой функционал выполним без циклов. (либо напрямую) любой массив в pandas уже векторизован. либо посредством функций apply или agg (первая поэлементно выполнит вами написанную функцию) , вторая агрегирует, то есть на вход получит массив на выход одно число например (mean, std) и.т.д. Но главный вывод не каких циклов pandas устроен так что ты никогда не используешь циклы для обработки данных. (только для работы с индексами иногда применяют циклы), но никогда с данными. Это очень сильно ускорит код.
    Ответ написан
    Комментировать
  • Как вставить строку на индекс, вне зависимости от того существует он или нет?

    Maksim_64
    @Maksim_64
    Data Analyst
    def f(l):
        return l[:2]+['Test']+l[2+1:] if len(l) > 2 else l + ['Test']
    Ответ написан
    Комментировать
  • Как работает random.choices с weights?

    Maksim_64
    @Maksim_64
    Data Analyst
    Что бы трансформировать weights в вероятности вы каждый элемент делите на сумму weights. В вашем случае weights = (1,3,7,9,80). ваш пространство выборки a = [1,2,3,4,5], соответственно
    1 : 1 / sum(weights)
    2 : 3 / sum(weights)
    3 : 7 / sum(weights)
    4 : 9 / sum(weights)
    5 : 80 / sum(weights)

    Интерпретация: При большом количество реализаций эксперимента (большое количество выборок) в данной функции регулируется параметром k, ваша относительная частота будут СТРЕМИТСЯ к заданным вероятностям но не ПОЛНОСТЬЮ им соответствовать.
    Например:
    random.choice(['Red','Black'],[5,25], k=100)
    вы получаете
    Red: 5/30 = 1/5
    Black: 4/5
    за 100 реализаций эксперимента вы ОЖИДАЕТЕ.
    Red: 100 * (1/5) = 20
    Black: 80
    вам на ГАРАНТИРОВАННЫ 20 и 80. Могут быть близкие к этим значения, могут быть 20 и 80. То есть количество будет варьироваться возле этих значений.
    Ответ написан
  • Кол-во пройденных дней, часов, минут и секунд?

    Maksim_64
    @Maksim_64
    Data Analyst
    import datetime
    past = datetime.datetime(2022,11,25,16,55,32)
    now = datetime.datetime.now()
    mappings = {'Дней: ':60*60*24, 'Часов: ':60*60, 'Минут: ': 60,'Секунд: ':1}
    diff_in_seconds = int((now - past).total_seconds())
    result = ''
    for key, value in mappings.items():
        result += key + str(diff_in_seconds // value) + ', '
        diff_in_seconds %= value
    print(f'Разница между {past} и {now} состовляет {result}')

    Для примера я взял дату несколько дней назад и дату момента запуска скрипта, и вывел полную разницу, дальше подгоните под свои нужды и все.
    Ответ написан
    Комментировать
  • Не могу решить задачу на подбрасывание монетки, что делать?

    Maksim_64
    @Maksim_64
    Data Analyst
    import random
    
    result = {}
    for n in range(10):
        experiment = []
        while True:
            experiment.append('О' if random.random() < 0.5 else 'Р')
            for i in range(len(experiment) - 2):
                if (experiment[i] == experiment[i+1]) and (experiment[i+1] == (experiment[i+2])):
                    break
            else: 
                continue
            break
                
        result[f'Попытка Номер {n+1}'] = experiment
    print(result)


    среднее количество попыток допишите сами. Эксперимент сгенерирован результаты в словаре result, так что это не составит труда. Обратите внимание на else, continue и последний break. Первый break принадлежит циклу for, затем else принадлежит тоже циклу for (именно так) он запускается если первый break не состоялся внутри цикла for, затем мы имеем continuous который возвращает нас на начало цикла while и код запускается снова, когда наконец то условие выполнено внутри цикла for срабатывает первый break (мы вышли из цикла for) затем else и continuous игнорируются ( потому что else принадлежит к for не к if обращаю ваше внимание еще раз ) и наконец последний break прекращает вечный цикл while. Поработайте с кодом, что бы почувствовать механику.
    Ответ написан
    Комментировать
  • Python как добавить 3 часа к времени?

    Maksim_64
    @Maksim_64
    Data Analyst
    вы должны использовать объект timedelta.
    import datetime
    print((datetime.datetime.now() + datetime.timedelta(hours=3)).strftime("%d.%m.%Y %H:%M:%S"))
    Ответ написан
    Комментировать
  • Как преобразовать число в дробное?

    Maksim_64
    @Maksim_64
    Data Analyst
    попробуй поработать с позицией первого не нуля вправо или влево от точки алгоритмически.
    import math
    def convert(a,b):
        p = math.floor(math.log10(a))
        if a < 1:
            result = '0.' + str(abs(p+1)*'0') + str(b)
            return result
    print(convert(0.0601,535))
    print(convert(0.00601,535))
    print(convert(0.000601,535))

    ключевая строчка кода
    p = math.floor(math.log10(a))
    она дает тебе позицию отрицательную или положительную.
    Я думаю такая подсказка будет полезной, маленькая функция для примера работает не со всеми случаями (она представлена для примера). Но зная позицию первого не нуля от точки отрицательную в право и положительную влево, можно решить данную задачу.
    Ответ написан
    1 комментарий