Задать вопрос

Максим Припадчев

Data Analyst

480

вклад
0

вопросов
490

ответов
54%

решений

Комментарии

Является ли электронная таблица базой данных?

Максим Припадчев @Maksim_64

Ну а сам то что думаешь?

Написано более двух лет назад
Посчитать многоугольник почему не работает програма?

Максим Припадчев @Maksim_64

no-pasaran, вектор [1,2] не обязан начинаться в [0,0]. назовем оси x и y. Это увеличение координаты x на 1 увеличение координаты y на 2. А начинаться в [0,0] они не обязаны.

Написано более двух лет назад
ImportError: No module named 'binance' в чем дело?

Максим Припадчев @Maksim_64

gi3m0, Лучше, разберись с окружением это не дело, все должно работать нормально, а не так что он pip не видит. и python более поздней версии поставь.

Написано более двух лет назад
ImportError: No module named 'binance' в чем дело?

Максим Припадчев @Maksim_64

gi3m0, ну есть importlib для полного импортированию по полному пути.

Написано более двух лет назад
ImportError: No module named 'binance' в чем дело?

Максим Припадчев @Maksim_64

gi3m0, Что значит точно? Откуда я знаю что у тебя там компьютере. По факту мы имеем две устаревшие версии python, одна из которых еще и pip не видит. Нужна поддерживаемая версия python. И проблемы с окружением тоже имеем.

Написано более двух лет назад
ImportError: No module named 'binance' в чем дело?

Максим Припадчев @Maksim_64

gi3m0, Поставь по новее анаконду. И начни заново.

Написано более двух лет назад
Какие требование к данным для t теста?

Максим Припадчев @Maksim_64

askhabaliev, Нет, я же тебе написал. Давай еще раз по порядку, рассмотрим простой вариант. У тебя есть два средних значениях по группам например группа 1 это люди от 30-40 лет и люди 40-50 это группа два. Мы осуществляем выборку и считаем ну пускай их средние доходы. И проводим тест сравнивая двух этих средних значения на статистическую разницу. Так вот РАСПРЕДЕЛЕНИЯ ОТКУДА мы осуществляли обе эти выборки ДОЛЖНЫ быть приблизительно НОРМАЛЬНЫ.

А CLT я упомянул потому что. РАСПРЕДЕЛЕНИЕ СРЕДНИХ всегда нормально независимо от распределения откуда осуществлялись выборка, если размер выборки достаточно большой. Можешь сам проверить возьми скажем равномерно распределенную (uniform) и выбирай выборку размером в 30 значений, затем считай среднее по ним, так ВОТ РАСПРЕДЕЛЕНИЕ ТАКИХ СРЕДНИХ будет нормально.

Еще раз, не распределение средних должно быть нормально это гарантированно CLT. А распределение откуда осуществлялась выборка (на которой считалось среднее должно быть нормально). Это разные вещи.

Написано более двух лет назад
ImportError: No module named 'binance' в чем дело?

Максим Припадчев @Maksim_64

Justa Gain, А верно, я даже не обратил внимание на версию, последний релиз aнаконды 3.10 ставит по умолчанию.

Написано более двух лет назад
ImportError: No module named 'binance' в чем дело?

Максим Припадчев @Maksim_64

gi3m0, Ну например (один из способов), если ты внутри jupyter'a выбрал дрогой интерпретатор (ядро) или ipkernel, как он там называется, то в ячейке для кода !pip install твоя библиотека, и она будет устанавливаться в это окружение.

Написано более двух лет назад
ImportError: No module named 'binance' в чем дело?

Максим Припадчев @Maksim_64

устанавливай в то окружение которым пользуешься.

Написано более двух лет назад

Рекуррентная нейросеть для прогнозирования на keras?

Maksim_64

Максим Припадчев @Maksim_64

Марк Карась, Глянул, сейчас быстренько пример один , там прогнозируют стоимость акции амазона. 50 дней batch у тебя 15, 51 предсказывает у тебя 16. Так вот он оказался вполне себе рабочим, так одна мелкая опечатка в нем была, а так рабочий я в colabe его запустил, как в аптеке работает. Глянь код.

import pandas as pd
import math
import numpy as np
from datetime import datetime
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from sklearn.preprocessing import MinMaxScaler
import matplotlib.pyplot as plt
import yfinance as yf


amzn = yf.Ticker("AMZN")
end_date = datetime.now().strftime('%Y-%m-%d')
amzn_hist = amzn.history(start='2017-01-01',end=end_date)

amzn_close = amzn_hist['Close']
amzn_values = amzn_close.values
amzn_values = amzn_values.reshape(-1,1)


trainingScaler = MinMaxScaler(feature_range=(0,1))
amzn_values_scaled = trainingScaler.fit_transform(amzn_values)

raining_split = math.floor(len(amzn_values_scaled) * 0.85) #1267+
training_amzn = amzn_values_scaled[0:training_split]
training_ind_amzn = []
training_dep_amzn = []

for i in range(50, len(training_amzn)):
    training_ind_amzn.append(training_amzn[i-50:i][0])
    training_dep_amzn.append(training_amzn[i][0])

training_ind_amzn, training_dep_amzn = np.array(training_ind_amzn), np.array(training_dep_amzn)
training_ind_amzn = np.reshape(training_ind_amzn, (training_ind_amzn.shape[0], training_ind_amzn.shape[1], 1))

amzn_model = keras.Sequential()
amzn_model.add(layers.LSTM(100, return_sequences=True, input_shape=(training_ind_amzn.shape[1], 1)))
amzn_model.add(layers.Dropout(0.2))
amzn_model.add(layers.LSTM(100, return_sequences=True))
amzn_model.add(layers.Dropout(0.2))
amzn_model.add(layers.LSTM(100))
amzn_model.add(layers.Dropout(0.2))
amzn_model.add(layers.Dense(25))
amzn_model.add(layers.Dense(1))
amzn_model.compile(optimizer='adam',loss='mean_squared_error')
amzn_model.fit(training_ind_amzn, training_dep_amzn, epochs = 60, batch_size = 32)

testing_input_amzn = amzn_values[training_split:]
testing_input_amzn = trainingScaler.fit_transform(testing_input_amzn)
testing_amzn = []
for i in range(50, len(testing_input_amzn) + 50):
    testing_amzn.append(testing_input_amzn[i-50:i][0])
testing_amzn = np.array(testing_amzn)
testing_amzn = np.reshape(testing_amzn, (testing_amzn.shape[0], testing_amzn.shape[1], 1))
predict_amzn = amzn_model.predict(testing_amzn)
predict_amzn = trainingScaler.inverse_transform(predict_amzn)

plt.plot(amzn_values[training_split:], color = 'blue', label = 'AMZN Stock Price')
plt.plot(predict_amzn, color = 'red', label = 'Predicted AMZN Stock Price')
plt.title('Amazon (AMZN)')
plt.xlabel('Number of Days since April 26, 2022')
plt.ylabel('AMZN Stock Price')
plt.legend()
plt.show()

Возьми за основу посмотри, что на что влияет и подстрой под свои данные.

Написано более двух лет назад

Рекуррентная нейросеть для прогнозирования на keras?

Максим Припадчев @Maksim_64

Марк Карась, А обучение то вообще происходит? сделай график своей loss функции. Я так понимаю речь сейчас только о тренировочных данных, на тренировочных данных ты должен увидеть постоянно снижающийся loss, если же речь о тестовых то там loss должен U-формы.

Написано более двух лет назад
Рекуррентная нейросеть для прогнозирования на keras?

Максим Припадчев @Maksim_64

Марк Карась, Сложно сказать, без тестов, как по мне так должно быть что вроде этого стартуешь с 15 индекса. В training_data, должно попадать i-15:i элементы, в labels должно попадать i-элемент. Но это так на вскидку у тебя данные под рукой.

Написано более двух лет назад
Как с помощью python загружать данные на страницу?

Максим Припадчев @Maksim_64

lukepker, там есть режим headless. Но в любом случае selenium может быть медленным. Тут такое дело, если надо взаимодействовать с элементами на сайте то выбор как бы не велик.

Написано более двух лет назад
ValueError: Shapes (None, 0, 6) and (None, 6) are incompatible?

Максим Припадчев @Maksim_64

meburka, Ну по этому, я это и не ответом, а всего лишь комментарием предложил. У нас то данных нет что и в каких размерностях у тебя есть, а в каких ожидается мы не знаем.

Написано более двух лет назад
ValueError: Shapes (None, 0, 6) and (None, 6) are incompatible?
Максим Припадчев @Maksim_64
Ну где ошибка, ты не показал, думаю что вот на этой строке
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

попробуй поменять loss='sparse_categorical_crossentropy'.

Написано более двух лет назад
Как правильно найти и описать аппроксимацию данных нормальным распределением со смещенным центром?

Максим Припадчев @Maksim_64

Даниил Бакалин, В диапазоне от 500 до 550 метров, было проанализировано 25 локаций. Из них в 8 локациях вид был найден. Значит вероятность встретить вид на этом диапазоне высот (в рамках данного исследования) 8/25 = 32%. Нет и еще раз нет. Ты говорил распределение нормальное - а это условие для равномерно распределенного.

На диапазоне от 500 до 550 метров, существует одинаковая вероятность встретить вид. Задача должна звучать вот так. Тогда это не нормальное распределение (normal distribution), а равно распределенное (uniform distribution).

25 локаций конечно маловато для статистических выводов. И формула будет не совсем 8/25, добавится поправка что это sample distribution. Но логика твоя - что твое распределение uniform а не normal.

Ну да ладно дело твое.

Написано более двух лет назад
Как правильно найти и описать аппроксимацию данных нормальным распределением со смещенным центром?

Максим Припадчев @Maksim_64

Даниил Бакалин, В корне не то, ты применил дискретизацию сначала, твое распределение дискретно, а потом говоришь оно нормально, нормальное распределение это непрерывная случайная переменная, а с твоих слов у тебя дискретная.

я разбил высоты на диапазоны, так как не очень представляю как иначе получить случайную переменную.
ОТВЕТ MLE. либо работай с дискретной переменной либо с нормальной, но не смешевай одно с другим это полная глупость.

В принципе раз это не условие что распределение нормальное, а согласно ЦПТ что теория, на практике мы от без выходности часто говорим допустим данные распределены нормально, то можно применять nonparametric methods KDE (kernel density estimation). https://www.statsmodels.org/dev/examples/notebooks..., nonparametric это класс методов, когда мы не делаем допущение о форме population distribution. Вообще открывай если используешь python statsmodels, что MLE что KDE что дискретные модели. Это все там.

Вообще, я надеюсь что ошибаюсь, но ты точно хорошо понимаешь что такое случайная переменная? Почитай в вики. Я не буду объяснять возьму практику. Например мы кидаем кубик на случайная переменная будет равномерно распределенной и иметь вид U(1,6). Что означает U-uniform, с одинакавой вероятностью выбираем число от 1 до 6 включительно. РЕАЛИЗАЦИЕЙ такой случайной переменной будет число от одного до 6. зачем нам эта переменная затем что у ней много математических свойств. И мы имея эту переменную может считать вероятности. Инферинтивная статистика в том числе занимается методами нахождения параметров для таких переменных, или например функции распределения для неизвестной переменной. В данном случае если бы наши данные были бы много результатов броска кубика мы бы нашли что это равнораспределенная дискретная случайная переменная на интервале (1,6).

Так вот твоя задача создать такую переменную (естественно не равнораспределенную а как ты утверждаешь нормальную или какую то другую кастомную). И потом когда она у тебя есть, считать в рамках нее вероятности. А не считать вероятности на сырых данных это глупость. Потому что ты говоришь у меня в каком то интервале точек больше значит там вероятность больше. Вероятность определяется по формуле для каждой случайной переменной она своя. Без модели распределения НЕТ НИКАКИХ ВЕРОЯТНОСТЕЙ.

Вообщем как то так. Все я больше чем надо уделил внимания этому вопросу.

Написано более двух лет назад
Как правильно найти и описать аппроксимацию данных нормальным распределением со смещенным центром?
Максим Припадчев @Maksim_64
Даниил Бакалин, Я слегка дополнил ответ парой предложений относительно аналитических методов. Хотя все они используются только в обучении (в институтах), на практике MLE (это не один алгоритм, а класс алгоритмов). Числовой метод, для нахождения наиболее вероятного параметра случайной переменной на основе наблюдаемых данных. Ты должен знать что такое случайная переменная. X - наблюдаемые данные. распределение пусть N - нормальное. MLE(X,N) - вернет. Наиболее вероятные парметры функции N(mu, std) которые "произвели данные X".

Не надо диапазонов. Надо занимать инферентивной статистикой. Есть данные X - наблюдения. Мы говорим есть нормальная случайная перменная которая произвела эти данные у этой случайной переменной есть парметры N(mu, std). Так вот используем MLE для того что бы апроксимировать эти параметры. Когда наша модель готова, то мы можем задавать вопросы какая вероятность чего то там больше меньше в интервале. Нам надо создать МОДЕЛЬ. раз ты говоришь распределение популяции нормальное МЫ знаем формулу модели загугли normal pdf и ты получишь большую формулу с двумя параметрами и одной перемнной. параметры это mean и std. Вот их нам и надо аппроксимировать. Есть они значит есть модель. Дальше любой вопрос о верояности какого то события это пару строчек кода c использованием scipy и sympy. Вот для понимания

mu = 2 std = 1 from scipy.stats import norm X = norm(mu,std) result = X.rvs(5) print(result)

Мы будем иметь массив из 5 РЕАЛИЗАЦИЙ нормального распределения из случайной переменной X с mean=2, std=1. Так вот твоя задача ОБРАТНАЯ, ты не знаешь чему равен mean а чему std. Но зато у тебя есть массив реализций result. И MLE аппроксимирует mean и std или только mean если нужно.

Написано более двух лет назад
Какой нейронной сетью (или другим инструментом) можно проанализировать текст чтобы понять настроение клиента?

Максим Припадчев @Maksim_64

Антон Иванов, Хорошо, двигайся в направлении тюнинга готовых моделей. Сначала полностью прочитай, что это такое вот здесь https://research.aimultiple.com/llm-fine-tuning/. Ну и гугли как взять языковую модель и тюнить ее. Одна из задач, которые могут решать модели после тюнинга это что называется summarizing text, пробуй гарантий не каких все зависит от много а в состоянии ли ты разобраться с api и выстроить ли процесс, с работает ли это для твоего кейса и т.д.

Если накопишь данные, то тогда с гарантиями элементарный классификатор построишь и он будет работать. А сейчас можно пробовать только тюнинг готовых языковых моделей.

Написано более двух лет назад

Самые активные сегодня

Виктор Новицкий
- 3 ответа
- 0 вопросов
Komrus
- 2 ответа
- 0 вопросов
Dentchik2
- 2 ответа
- 0 вопросов
AlexVWill
- 2 ответа
- 0 вопросов
dimone73
- 1 ответ
- 1 вопрос
Drno
- 2 ответа
- 0 вопросов