• Что можно написать в дипломной работе по теме восприятие пользователем результатов прогностических систем?

    Maksim_64
    @Maksim_64
    Data Analyst
    Восприятия пользователем результатов прогностических систем


    Вообще тема мертвая, она элементарно плохо сформулирована. Как мне видится, что бы со всем этим делом справится. Тебе подойдет дашборд, при чем в качестве web приложения. Если твой язык python то стек будет такой.
    python, pandas, plotly + dash + scikit-learn / statsmodels. Я бы рекомендовал statsmodels, раз уж речь о улучшении восприятия, то работай с интерпретируемыми моделями (statsmodels много инферентной статистики предоставит).

    1. Покажи на графиках, как изменение в одном из предикторов, влияют на твой таргет.
    2. Сделай анализ важности предикторов, это тоже улучшит понимание юзера.
    3. Покажи как удалил выбросы
    4. продемонстрируй что применяя стандартизацию данных (или другую трансфомацию), сама структура данных не меняется и т.д.
    5. Вообще рассмотри толковый EDA.
    Ответ написан
    5 комментариев
  • Какую технологию выбрать для выдачи результата по выбранным параметрам?

    Maksim_64
    @Maksim_64
    Data Analyst
    Тебе нужно API для LLM (Large Language Models). Пользователь выбрал параметры, ты на основе их сгенерировал, запрос к LLM, получил ответ и опубликовал его пользователю.

    вбиваешь в поисковке API for LLM. И начинаешь изучать, чего есть какие тебе подходят и т.д.
    Ответ написан
  • Почему текстовый редактор и консоль по-разному присваивают ссылки на переменные Python?

    Maksim_64
    @Maksim_64
    Data Analyst
    Ну смотри, здесь вся история про оптимизацию. В целях оптимизации str, int, и float. Указывают на один и тот же объект. Так как это не мутабельные типы данных, то сторонних эффектов нет.

    Так вот когда, ты запускаешь все это дело скриптом, то эту оптимизацию, проще проводить, поскольку весь скрипт сначала парсится в строку, и на этом этапе python понимает что он может что то оптимизировать. А в интерактивном python каждая строка запускается по отдельности, и данный процесс на много сложнее осуществить.

    Если ты сделаешь числа по меньшее, то он тебе и в интерактивном и если запускать через один и тот же скрипт выдаст один и тот id. например 11.
    Ответ написан
    Комментировать
  • При выводе users_cards выводится [, ...] как это исправить?

    Maksim_64
    @Maksim_64
    Data Analyst
    self.users_cards[i] = keys.pop Ну так ты добавляешь в свой список, метод pop. Вызывай его. keys.pop() Ну и если keys это словарь, то ты должен сопроводить key.pop(ключ), тогда данный ключ будет удален и его значение запишется в твой self.user_cards.
    Ответ написан
    Комментировать
  • Как правильно трансформировать данные к нормальному распределению?

    Maksim_64
    @Maksim_64
    Data Analyst
    Правильного способа не существует в природе. Надо пробовать все трансформеры.

    Пробуй Power Transformer (Он все таки самый универсальный) с обоими методами Box-Cox и Yeo-Johnwon . И делай тоже самое визуализацию распределение до и после. На всякий случай перепроверь свой код визуализации.

    Держи kaggle notebook из коллекции на эту тему. Где детально разобраны все трансформеры и визуализация хорошо выполнена, QQ график из statsmodels используется, плюс KDE в общем очень советую читать notebook и пробовать на своих данных.
    Ответ написан
    Комментировать
  • Какой существует сайт, где можно преобразовать текст в аудиофайл, используя пользовательскую модель?

    Maksim_64
    @Maksim_64
    Data Analyst
    Нет таких сайтов. Обучать модели на твоих данных никто не даст. Создавай свою. Те гайды которые не работают, пробуй их в google colab. Там уже установлены библиотеки для работы с нейронными сетями + тебе для тренировки потребуются мощности. Если не поможет, ищи другие гайды.

    Освой google colab и дело пойдет. Устанавливать дополнительные пакеты и т.д в него тоже можно.
    Ответ написан
    3 комментария
  • Как сделать подложку(карту) на Python?

    Maksim_64
    @Maksim_64
    Data Analyst
    Ну для всего этого дела существует geopandas и его смежные вспомогательные библиотеки. Документация великолепная, там есть галерея с большим количеством примеров (есть с чего начать пошаговое изучение), так же есть датасеты которые ты можешь загрузить локально и потом делать любые расчеты и строить красивые визуализации.
    Ответ написан
    Комментировать
  • Модель F(x) с разрывом типа «скачок»?

    Maksim_64
    @Maksim_64
    Data Analyst
    Ну вообще если интегрировать функцию с разрывом типа скачок. То это сумма определенных интегралов . То есть в конечном счете точка x0 ни чем не будет отличаться от других P(X=x0) = 0. Будет равняться нулю, как и в любой другой отдельно взятой точке.

    Случайные величины, используют для моделирования ситуаций. Ну например рынок акций. Где потенциальные скачки это новости. На которых цена акции совершает скачок.
    Ответ написан
  • Как записать float данные в DataFrame pandas?

    Maksim_64
    @Maksim_64
    Data Analyst
    Ну вот с кодом куда понятнее. Во первых я бы убрал весь код. И читал бы из json прямиком в pandas фрейм. Методом read_json() либо json_normalize(). И затем бы выбрал подсет на основе тех условий что мне нужно. Это вообще вместо всего кода, что ты дал.

    Если же по коду, то объвляешь список до цикла пусть будет tank = [], и затем где у тебя print(tank_value) делаешь tank.append(tank_value). Затем естественно вне цикла после твоего кода
    df = pd.DataFrame({
        'tank_value':tank
    })
    В принципе все. Но это плохой способ, правильно вообще не процессировать данные python циклами и читать весь json в фрейм и потом делать выборку из него.
    Ответ написан
  • Как выучиться на машин-лернера с нулевой базой математики?

    Maksim_64
    @Maksim_64
    Data Analyst
    Все можно осилить если начинать со своего уровня, что бы не допустить пробелов. И быть готовым потратить пару лет (только на подготовительную математику).

    Где учится Khan Academy. Она конечно же на английском, но его нужно освоить (до определенного уровня) конечно же в первую очередь. Но там есть вся вышеперечисленная математика более тысячи упражнений и можно начать хоть со школьной программы, а можно начать с интегралов при чем не самых тривиальных.

    Когда будет весь бэкраунд оттуда тогда и будет актуально дальнейшее обучение потому что неизвестно какие ресурсы будут the best. Через год или два.
    Ответ написан
    5 комментариев
  • Увеличение списка до нужной длинны в pyhon?

    Maksim_64
    @Maksim_64
    Data Analyst
    Обычно когда мы имеем дело с множеством списков разной длинны и нужно выбрать из каждого по индексу то zip_longest из itertools решает проблему. Способов применения может быть много, простейший выглядит вот так
    from itertools import zip_longest 
    x = [1, 2, 3, 4, 5, 6, 7] 
    y = [8, 9, 10] 
    z = [9, 3, 4, 5]
    list(zip_longest(x,y,z))
    Ну а там в зависимости от того как эти списки получаются и что на выходе можно по разному реализовать. zip_longrst имеет параметр fillvalue, чем заполнять по умолчанию None. Ну и надо помнить про распаковку, то есть если все эти списки собраны ну например в какой то один список то можно использовать так.
    data = [x,y,z]
    list(zip_longest(*data))
    Ответ написан
    Комментировать
  • О независимости событий?

    Maksim_64
    @Maksim_64
    Data Analyst
    654c84d154555722205620.png

    Смотри если A и B имеют общие исходы это еще не означает что они зависимы, знание что событие произошло должно изменять вероятность события А. Поменяй условие задачи, сделай не восьмигранник, а кубик. Омега будет {1,2,3,4,5,6}, A = {не четные}, B = {больше или равно 4}. A и B будет {5}. далее проделай все тоже самое, что я в ответе, и в этом случае они будут зависимыми.
    Ответ написан
    3 комментария
  • Существует ли нейросеть для краткого пересказа книг?

    Maksim_64
    @Maksim_64
    Data Analyst
    Bard может читать, документы которые лежат на гугл диске и составлять заключение о прочитанном. Вся инфа которую ты ему дашь может быть использована гуглом. То есть ни какой "конфиденциальной" информации, ну и там возможно еще какие то ограничения, что бы все это дело не превращалось в бизнес. Но функционал такой имеется, и для себя заключение по какой нибудь книге вполне сгодится. Так надо определенное расширение установить и будет работать.
    Ответ написан
    Комментировать
  • Нормально ли keras тдёт на windows?

    Maksim_64
    @Maksim_64
    Data Analyst
    Ну смотри, tensorflow - это операции с тензорами. Keras - это просто интерфейс для нейронок. Так вот tensorflow версии > 2.10 не поддерживает Windows GPU. То есть на сегодняшних версиях ты не сможешь использовать GPU для операций с тензорами.

    Изучать то можно, но если сегодняшняя библиотека не поддерживает windows, то в чем смысл, все не стоит на месте. И инвестируя свое время в изучение инструмента, ты должен быть уверен что сможешь использовать его завтра.
    Ответ написан
    2 комментария
  • Как изменить имя столбца в SQLite?

    Maksim_64
    @Maksim_64
    Data Analyst
    Наверное дело в устаревшей версии SQLite, обнови ее.
    Ответ написан
    4 комментария
  • Насколько приемлема такая проверка на четность (делимость) в Python?

    Maksim_64
    @Maksim_64
    Data Analyst
    Все три нормальные, используй какой нравится. Ничего из твоих примеров не является плохой практикой.
    Ответ написан
    Комментировать
  • Как называется сцециалист, который может найти нишу для продукта?

    Maksim_64
    @Maksim_64
    Data Analyst
    Специалист, называется продуктовый аналитик. Это они строят гипотезы, относительно рыночных продуктов, в условиях недостаточности информации. Кому интересен? Тут извини я не думаю, что у данного продукта возможна сколько-нибудь значимая аудитория.
    Ответ написан
  • Как сделать так чтобы данные перезаписывались, а не добавлялись новые?

    Maksim_64
    @Maksim_64
    Data Analyst
    Ты используешь pandas датафрейм, потом начинаешь чего то изобретать. Pandas фрейм имеет метод to_sql https://pandas.pydata.org/docs/reference/api/panda.... Ему надо передать имя таблицы, объект соединения, так же у него есть параметр if_exists, которому можно присвоить значение replace. И будет перезапись.

    Раз уж у тебя есть фрейм то и оставайся в рамках датафрема сформируй необходимый подсет. И без cursor.execute отправляй в любую базу в том числе и в sqlite.
    Ответ написан
    8 комментариев
  • Как нарисовать картинку имея координаты точек?

    Maksim_64
    @Maksim_64
    Data Analyst
    Все очень просто, используй matplotlib, pandas и seaborn. Возможности не ограниченные.
    сначала читаем это дело в pandas фрейм и затем рисуем scatterplot. Можно их соеденить сделать их разного размера создать любую палитру цветов, да все что угодно
    import pandas as pd
    import matplotlib.pyplot as plt
    import seaborn as sns
    df = pd.read_csv('data.csv',sep=';')
    sns.scatterplot(df, x='x',y='y',hue='c')
    plt.show()

    Вот простенький пример где data.csv это твои данные. Открывай доки как seaborn так и matplotlib и кастомизируй по своему желанию. Рабочий маленький пример рисования точек по цвету третьей переменной я привел.
    Ответ написан
    Комментировать