Задать вопрос

Максим Припадчев

ML Engineer

493

вклад
0

вопросов
501

ответ
54%

решений

Ответы пользователя по тегу Excel

Что делать, если при учете константы в регрессионном анализе r-квадрат ужасен, но нет оснований не учитывать её?

Максим Припадчев @Maksim_64
ML Engineer

1. Теоретически это возможно иметь такую разницу в r-squared. Но довольно редкий кейс, я бы перепроверил данные.

2. Нужно/ Не нужно это вопрос моделирования. Как ты собираешься интерпретировать модель, если ты используешь линейную регрессию (модели с высокой степенью интерпретации), то ты всегда отталкиваешься от бизнес значений параметров и ошибок. Константу оставляют например когда при нулях (или значениях очень близких к нулю), модель не должна показывать ноль.

3. Посмотри на другие метрики например среднюю абсолютную ошибку, медианную абсолютную ошибку. Все они имеют хорошую бизнес интерпретацию с которой легко работать. Сам по себе r_squared это количество вариативности (дисперсии) объяснено моделью. 0.19 (19 процентов) вариативности объяснено моделью. Что очень мало и я назвал бы такую модель негодной. В то время как 0.99 (99 Процентов) очень много это учебные показатели, но это еще не все это не означает все супер. Посмотри на вышеупомянутые метрики они измеряются в единицах твоего таргета. Как они себя ведут.

4. RSS, ESS, TSS - далековато от бизнеса. Это значения которые нужны для F статистики. А она у тебя говорит сама за себя 4314 и 5. Первая модель (где 5) совершенно не пригодна. Вторую перепроверяй, и мысли категориями интерпретации. Это сама суть регрессивного анализа.

Ответ написан более года назад

2 комментария

2 комментария
Как добавить данные в Series через ссылку на объект?

Максим Припадчев @Maksim_64
ML Engineer

Вообще так с pandas не работают.
1. pandas имеет мощный I/O как следствие эксель в том числе читают прямо в фрейм. Есть функции read_excel и другие, дополнительно перед этим установив различные reader's writer's например openpyxl и др.

2. Если ты собираешься создать series из python объекта, с числовыми индексами то это list. Если с именованными индексами но это словарь. То есть собирай в словарь или лист. Seires это однородный массив и с именованными индексами, и for циклами их не процессируют.

Ответ написан более года назад

2 комментария

2 комментария
Как ускорить работу с большими таблицами данных?

Максим Припадчев @Maksim_64
ML Engineer

1. Сделай дашборд plotly + dash, он может работать, как с базой данных, так и pandas фреймом. Там же есть объект таблица для красивого вывода, + огромное количество графиков, пользователь будет вводить, что он хочет вывести, ты будешь делать запрос к фрейму и выводить. Все доки в принципе ориентированы на работу с фреймами, бд как пример берется, возможности огромные. plotly+dash

2. Есть в принципе отдельная библиотека pandasgui Функционал слабенький, но фильтрацию поддерживает.

Не знаю поможет ли это тебе в твоей проблеме, но раз речь в том числе и о скорости pandas то упомянуть об этом следует, пару недель как nvidia выпустила расширение, которое очень серьезно ускоряет pandas (GPU acceleration). читать здесь

Ответ написан более двух лет назад

5 комментариев

5 комментариев
Как математически понять формулу из Excel?

Максим Припадчев @Maksim_64
ML Engineer

Математически получить элементарно, 2.5% процента привести к подходящему виду для таких расчетов. 2.5% = 0.025. Получим 5000000-1250000-(500000)/(1+0.025) = 3262195,12195

Ответ написан более двух лет назад

1 комментарий

1 комментарий
Как правильно импортировать таблицу excel в бд postgre?
Максим Припадчев @Maksim_64
ML Engineer
Я бы в принципе рекомендовал использовать pandas для таких целей.
1. Читаем excel в pandas dataframe псевдокод будет такой.

import pandas as pd df =pd.read_excel(data.xlsx,sheet_name=’Ткани’)

у функции read_excel много параметров, в том числе header, index_col которые возможно придется настраивать.

2. Глянул бы на него что таблица в порядке (это как фрейм запишется в базу), глянул бы на типы данных, df.dtypes что бы все типы колонок, были в том виде как их ожидает база. Если надо изменил бы их. Проверил бы есть ли пропущенные значения (nan, NA). Если есть провел бы работу с ними.

3. Затем бы отправлял в базу методом to_sql(). Псевдо код будет такой.

df.to_sql('table_name', connection, if_exists='replace')

Параметр if_exists (если таблица существует) имеет также метод append просто весь фрейм добавит новыми строками, и fail тогда будет ошибка.

У pandas хорошая документация и он силен в чтениях фалов любых форматов, так что если что то не получается, это почти всегда поправимо, ну и как писать в базу тоже конфигурируется очень удобно, так что если в этом будут проблемы то тоже решается.

Ответ написан более двух лет назад

1 комментарий
1 комментарий
Как из pdf-файла спарсить таблицу, размещенную на двух страницах и сохранить в Excel?
Максим Припадчев @Maksim_64
ML Engineer
Когда у вас есть два пандас фрейма конкатенируйте их с помощью pd.concat и записывайте объеденный фрейм напрямую в excel.
псевдо код будет что то вроде этого.

final_df = pd.concat([df1,df2], ignore_index=True) final_df.to_excel('имя файла')

Все быстро и удобно без лишних записей в csv. Самое сложное это установка tabula бывает капризничает. Но в остальном все просто.

Ответ написан более двух лет назад

15 комментариев
15 комментариев

Самые активные сегодня

Иван Кулаков
- 1 ответ
- 1 вопрос
Samedixxx
- 2 ответа
- 0 вопросов
Алексей Абакумов
- 0 ответов
- 1 вопрос
PlaZtic
- 0 ответов
- 1 вопрос
Vitsliputsli
- 1 ответ
- 0 вопросов
Goremal
- 1 ответ
- 0 вопросов

Что делать, если при учете константы в регрессионном анализе r-квадрат ужасен, но нет оснований не учитывать её?

Как добавить данные в Series через ссылку на объект?

Как ускорить работу с большими таблицами данных?

Как математически понять формулу из Excel?

Как правильно импортировать таблицу excel в бд postgre?

Как из pdf-файла спарсить таблицу, размещенную на двух страницах и сохранить в Excel?

Войдите на сайт