• Где вы берете статистические данные?

    Maksim_64
    @Maksim_64
    Data Analyst
    Специалист который занимается, ответами на данный вопрос называется продуктовый аналитик. Основная их работа это выдвижение гипотез в условиях недостаточности данных. Иными словами сведение к математическому виду определенного утверждения.

    Все твои вопросы не являются общедоступной информацией, это знает владелец продукта, иногда он может сделать эту информацию публичной, иногда нет. Другой способ, это простое проведение опросов, и оценка интересующей статистики на основе случайных выборок.
    Ответ написан
    Комментировать
  • Нечетное число в шахматном турнире?

    Maksim_64
    @Maksim_64
    Data Analyst
    Формально для все таких ситуаций, стратегия всего одна это сведение на каком то из раундов к четному количеству. Определенным игрокам обычно дают преимущество, то есть они вступят в турнир не с начального раунда.

    Такие турниры бывают и на самом высшем уровне, c нечетным количеством участников при игре на выбывание, и принцип тот же участники с наиболее высоким рейтингом вступают позже. Пример Кубок мира фиде 2021 в Сочи. У женщин было 103 участника.

    Ну а вот в буквальном смысле как это происходило составление пар в турнире, есть статья из википедии Кубок мира по шахматам среди женщин 2021

    Обрати внимание у некоторых участников есть вместо пары Bye (автоматически проходит в следующий тур).
    Ответ написан
    Комментировать
  • Как сменить стэк?

    Maksim_64
    @Maksim_64
    Data Analyst
    Непонятно, как можно работать java разработчиком n-лет и так формулировать вопрос. Стаж коммерческой разработки он общий. Остальное это твои навыки которые, тебе возможно придется подтверждать на собеседовании.

    Присутствие всякой ерунды или не связанных с реальностью требований в вакансии не редкость, на это никто внимания особо не обращает (если только в негативном смысле, что бы сразу отсеять компанию). Все решается на собеседованиях.
    Ответ написан
    Комментировать
  • Какие могут быть возможные причины изменения ответа LLM на один и тот же запрос?

    Maksim_64
    @Maksim_64
    Data Analyst
    Дообучение - не происходит. Кроме новых релизов. Никакого лайф дообучения не существует.

    LLM - должен имитировать интеллект, по этому он перефразирует один и тот же по смыслу ответ.

    В тех случаях, когда LLM дает по смыслу другой ответ , то она это может делать по ряду причин:
    1. Ранг источника на котором она формирует ответ, изменился понизился

    2. Она может хранить историю этот пользователь уже задавал этот вопрос и потом задает его снова и снова, "значит ответ не устраивает".

    3. LLM может получать лайф оценки на свои ответы, у каждого разработчика есть команды людей которые выставляют оценки ответам LLM, и она может получить низкую оценку и начать искать другой ответ, но это не имеет ничего общего с дообучением.

    Дообучение - это очень дорого.
    Ответ написан
  • Почему yfinace не выводит данные за последние два года? Я так понимаю, это связанно с нынешней ситуацией в мире, можно ли обойти?

    Maksim_64
    @Maksim_64
    Data Analyst
    Потому что компания российская. Поменяй тикер на не российскую компанию и будет выводить. Для российских используй другие библиотеки. Например https://github.com/mbk-dev/moex
    Ответ написан
  • БД (хранилище) для документов с GUI, ранжированием и поиском. Какие фреймворки или готовые решения есть?

    Maksim_64
    @Maksim_64
    Data Analyst
    1. pandas для манипуляций с данными и построения пайплайна.
    2. nltk + scikit-learn для работы с текстом (ранжирования, трансформации в векторное пространство, алгоритмы сравнения для различных метрик и т.д)
    3. plotly+dash (для веб интерфейса с возможностью собрать красивый фронт на python (react, html, css) на все это есть python обертка) + dash bootstrap components коллекция крутых готовых компонентов.

    Примеры готовых качественных веб приложений Галерея код есть на гитхаб, там же найдешь.

    БД тоже подсоединяется без проблем, примеры в документации. Вообще очень упрощая dash это способ превратить модели машинного обучения в веб приложение. Со всеми сопутствующими потребностями.
    Ответ написан
    Комментировать
  • Почему не происходит запись значений в файл?

    Maksim_64
    @Maksim_64
    Data Analyst
    Не закрыл файл на гарантировал, очистку буфера и как следствие не гарантировал, что его содержимое целиком окажется в файле. Как по мне это абсурд, что это вообще, работает без исключений или хотя бы предупреждений.
    Ответ написан
    4 комментария
  • Взаимодействие методов внутри класса?

    Maksim_64
    @Maksim_64
    Data Analyst
    далее создал 2 бойца (боец 1 и боец 2) и присвоил им класс fighter

    Ты создал два экземпляра класса fighter (в python принято давать имена классам с заглавной буквы) fighter-> Fighter.

    далее я бойцом 1 применил метод удар на бойца 2
    Это тебе так захотелось, в описании метода класса 'udar' об этом нет слова. Твой класс умеет бить только собственный экземпляр точнее имеет намерение ударить себя (так как атрибут здоровья не обновляется)

    Нужно передавать экземпляр другого класса, в общем измененная версия твоего кода
    class fighter:
        def __init__(self,name=None,hp=None,dmg=None,):
            self.name = name
            self.hp = hp
            self.dmg = dmg
    
    
        # def udar(self,hp,dmg):
        #     print("Наносит урон с руки")
        #     rep = self.hp - self.dmg
        #     return "Осталось здоровья: " + rep
    
        def udar(self,other):
            print(self.name + " наносит урон с руки" 'c уроном ' + str(self.dmg))
            other.hp = other.hp - self.dmg
            return "У " + other.name + " осталось здоровья: " + str(other.hp)
    boec = fighter("вася",200,22)
    boec2 = fighter("bob",100,19)
    boec.udar(boec2)
    Ответ написан
    8 комментариев
  • В чем преимущества bs4 перед регулярками?

    Maksim_64
    @Maksim_64
    Data Analyst
    bs4 и regex -нельзя сравнивать. bs4 это интерфейс для работы с html, xml документами, а regex - это инструмент для работы с паттернами в тексте.

    Обычно их используют вместе, я не припомню что бы я использовал BeautifulSoup без регулярок.
    HTML - структурированный документ. Для эффективного взаимодействия со структурой есть BeautifulSoup для эффективного взаимодействия с элементом структуры текстом есть regex.
    Ответ написан
    Комментировать
  • Как работать с GitHub средствами python?

    Maksim_64
    @Maksim_64
    Data Analyst
    Ответ написан
    Комментировать
  • Python цикл while и random?

    Maksim_64
    @Maksim_64
    Data Analyst
    1. Отступы.
    if a == b:
    print("Костии стали равны с  " , c)


    2. У тебя здесь белее одной переменной 'с' ты ее объявил на английской раскладке а вот здесь print("Костии стали равны с " , с) она на русской (другая переменная которой нет).

    Остальное это не ошибки по смыслу отрегулируй, что внести в тело цикла, а что вынести. Например вот это input("Нажмите ентер для выхода") не имеет никакого смысла.
    Ответ написан
    2 комментария
  • Реально ли трудоустроиться на работу после курсов it?

    Maksim_64
    @Maksim_64
    Data Analyst
    1. Что наличие курса станет поворотным событием в твоей карьере рассчитывать не стоит.

    2. Моя рекомендация следующая, изучай язык программирования и как следует самостоятельно, делай портфолио дашборд какой-нибудь с аналитикой и так долго и терпеливо пробивайся на собеседование. Так же пытайся попасть на собеседование и как разработчик (где-то есть тестовые задания и через него есть шанс добраться до собеседования).

    3. Если только начинаешь, то на пару лет упорного труда без работы, ты должна быть готова. И это будет успех если через два года попадешь на работу.
    Ответ написан
  • Как регулярными выражениями оставить только цифры?

    Maksim_64
    @Maksim_64
    Data Analyst
    сделай замену. r'\D', '',все что не цифра, на пустую строку.
    Если конечно ты уверен, что все они выглядят так как у тебя в примере, если например присутствуют плавающая точка или запятая или число отрицательное, то получишь ошибку, неприятную.
    Ответ написан
    Комментировать
  • Как с помощью assign добавить в фрейм данных столбец, в котором будут индексы трех максимальных элементов из другого столбца той же записи?

    Maksim_64
    @Maksim_64
    Data Analyst
    Все довольно просто, на будущее если запутался, то предоставляй:
    1. Входные данные (фрейм)
    2 . Что хотелось бы получить.
    3. Ну и попытку решения (ее ты предоставил, пытался вопросов нет).

    Сделаю за тебя фрейм со случайными данными и затем решу вопрос.
    df = pd.DataFrame({
        'A':[np.random.randint(1,100,20) for i in range(5)],
    })

    Решение
    result = (
        df.assign(
            three_largest = lambda x: x['A'].apply(lambda x: pd.Series(x).nlargest(3).tolist()),
            three_largest_index = lambda x: x['A'].apply(lambda x: pd.Series(x).nlargest(3).index.tolist())
        )
    )

    Если захочешь разложить свои списки на отдельные колонки то используй следующий трюк.
    result[['one','two','three']] = pd.DataFrame(result['three_largest_index'].tolist(),index=result.index)
    result
    Как видишь все в разных вариациях, как удобно.
    Ответ написан
    Комментировать
  • Как правильно заменить значения в столбцах фрейма данных python pandas?

    Maksim_64
    @Maksim_64
    Data Analyst
    df = pd.DataFrame({
        'A':[[5,6,24,3],[23,11,15],[3,100]],
        'B':np.NaN
    })
    (
        df.assign(
            A_max =lambda x: x['A'].apply(max),
            B_indexmax =lambda x: x['A'].apply(lambda x: pd.Series(x).idxmax()),
        )
    )

    Пару слов.
    1. Для замены. Вместо A_max, B_index_max меняем на А и B и меняем их местами сначала B потом A. Так делать плохая практика. Не нужно тебе A и B колонки просто выкинь их отдельно, а эти переименуй.

    2. loc мощный инструмент, для выборок он у меня наверное почти в каждом запросе присутствует но для выборок Для процессирования колонок плохая практика
    df.loc[:,[колонка]] = массив, вот так старайся не делать. Используй assign, как у меня в примере.
    Ответ написан
    Комментировать
  • Какие азы нужно знать перед тем как начать изучать программирование?

    Maksim_64
    @Maksim_64
    Data Analyst
    Не нужно ничего, начинай программировать. Проблемы надо решать по мере их поступления, а не придумывать их самому.

    Любой толковый учебник для начинающих , будет тебя знакомить с азами, через программирование.
    Ответ написан
    Комментировать
  • Как задетекировать изменение вероятности успеха в испытаниях Бернулли?

    Maksim_64
    @Maksim_64
    Data Analyst
    Если одним словом то тестирование гипотез:
    Например Cumulative Sum (CUSUM) Control Charts.
    1. https://www.ncss.com/wp-content/themes/ncss/pdf/Pr...

    2. https://www.osti.gov/servlets/purl/1374023 (с vpn)

    3. https://en.wikipedia.org/wiki/Sequential_probabili...

    4. Чего нибудь байесовое обязательно тоже имеется (погуглить)
    5. Огромное семейство Likelihood тестов тоже подойдет, p-это всего лишь параметр (погуглить).

    Будешь работать с CUSUM (это моя рекомендация для решения проблемы) там тоже тест статистика для кумулативный суммы и т.д. В конечном счете все сводится к тестированию гипотез.
    Ответ написан
    1 комментарий
  • Стоит ли начинать учить программирование с Golang?

    Maksim_64
    @Maksim_64
    Data Analyst
    1. Начинать с go не нужно. Это довольно нишевый язык, по которому будет крайне тяжело найти первую работу. Обычно go специалисты, это программисты с опытом которые в определенный момент добавляют его в свое портфолио.

    2. Платные курсы тоже не нужно, стоят они не дешево и это плохая инвестиция денег, учись бесплатно, а денежки пусть будут.

    В остальном определись не с языком, а что ты именно хочешь делать, в создании какого продукта принимать участие и под это дело подбирай язык, и не пытайся быть особенным, тебе нужен большой рынок и скромненькое местечко на этом рынке.
    Ответ написан
    5 комментариев
  • Не работает модель для игры камень, ножницы, бумага?

    Maksim_64
    @Maksim_64
    Data Analyst
    Вся твоя затея не имеет никакого смысла. KNeighborsClassifier - использует по умолчанию Minkowski metric, что эквивалетно для p=2, обычной Евклидовой дистанции.

    Евклидова дистанция не имеет никакого смысла - для категориальных переменных на вход, она мощный инструмент для непрерывных и бесполезный для категориальных. А у тебя именно категории stone, shears и paper которые закодировал ты правда, совершенно не правильно. Тебе тут нужен OneHotEncoder, а так ты как бы говоришь алгоритму что paper (3) чем то отличается по весу в модели чем stone (1) . В целом можно работать с так называемой Hamming distance, которая позволяет KNeighborsClassifier получать категории на вход, но scikit-learn не поддерживает ее из коробки, то есть ее можно добавить как custom metric.

    Если ты собираешься чему то научится то:
    1. Изучи примеры с объектом pipeline он позволяется осуществлять трансформации на тестовом и тренировачном датасете, внутри пайплайна.

    2. Для любого алгоритма для этой задачи необходим OneHotEncoder его прям в пайплайн встроешь. Примеры в доках scikit-learn имеются.

    3. По скольку у тебя категориальные переменные на вход, то используй алгоритмы которые базируются на деревьях решений. Все они есть в scikit-learn.
    Ответ написан
    2 комментария
  • Что вы делаете, если застряли на задаче?

    Maksim_64
    @Maksim_64
    Data Analyst
    Все просто, ты взял задачу себе не по уровню, по этому и нет прогресса. Браться надо за то что для тебя выполнимо в данный момент и так шаг за шагом расти по не многу.
    Ответ написан
    Комментировать