Задать вопрос

Максим Припадчев

ML Engineer

492

вклад
0

вопросов
501

ответ
54%

решений

Комментарии

Как найти частоту встречаемости строки в dataframe?
Максим Припадчев @Maksim_64
Единственное, [] используется для выбора подсета. Тебе же нужен объект Seires и дальше все правильно mean. Даст тебе долю удовлетворяющую условию, от 0 до 1 где 1 это сто процентов.

df = pd.DataFrame({'A':[1,2,-1,-2,4]}) (df['A'] < 0).mean()
Условие может быть сколько угодно сложным включать в себя несколько колонок и т.д главное получить булевый массив и затем sum это количество True значений mean это их доля то есть доля строк удовлетворяющих условию.

Написано более года назад
Какую нейросеть можно использовать для позиционирования стикера на макете упаковки товара?

Максим Припадчев @Maksim_64

RDMStreet, Нет, слишком узко для LLM.

Написано более года назад

Как в pandas объединить непрерывную последовательность событий одного типа в интервал?

Maksim_64

Максим Припадчев @Maksim_64

Иван Мельников,

(
    df
    .assign(
        EventTime=lambda x: pd.to_datetime(x['EventTime'],format='%Y-%m-%d %H:%M:%S')
    )
    .assign(
        groups=(df['EventType'] != df['EventType'].shift())
        .cumsum()
    )
    .groupby(['user_id','groups']
    )
    .agg(
        first= pd.NamedAgg(column='EventTime',aggfunc=lambda x: np.min(x)),
        last= pd.NamedAgg(column='EventTime',aggfunc=lambda x: np.max(x)),
        EventType= pd.NamedAgg(column='EventType',aggfunc=lambda x: set(x).pop()),
        # user_id=pd.NamedAgg(column='user_id',aggfunc=lambda x: set(x).pop()),
        )
    .reset_index()
    .loc[:,['user_id','EventType','first','last']]
) Будет вот так. Все Идентично, только теперь группировка будет по двум колонкам.

Написано более года назад

Как в pandas объединить непрерывную последовательность событий одного типа в интервал?

Максим Припадчев @Maksim_64

Иван Мельников, Я его вообще не учитывал, это было не очевидно из твоего вопроса. Можно учесть это вообще не проблема. Нужно точно видеть что ты хочешь на выходе с учетом разных ID, ну а так то группировка по двум или более колонкам не проблема, там где groupby просто ([user_id, groups]) а из агригации его выкинуть и отреглуировать reset_index по скольку он будет многоуровненвый.

Написано более года назад
Можете порекомендовать книги для практических заданий Python Data Science?

Максим Припадчев @Maksim_64

Reyfli, Поверь, я занимаюсь коммерческой разработкой в DS - это клад а не книги, еще если будешь интересовать нейронками то глянь этот мой ответ Это лучшее по нейронным сетям.

Написано более года назад
Можете порекомендовать книги для практических заданий Python Data Science?

Максим Припадчев @Maksim_64

английский знаешь?

Написано более года назад
Как работает замыкание в python?

Максим Припадчев @Maksim_64

Почитай Fluent Python, 9 глава Decorators and Closures, тема раскрыта шикарно.

Написано более года назад
Что делать, если при учете константы в регрессионном анализе r-квадрат ужасен, но нет оснований не учитывать её?

Максим Припадчев @Maksim_64

Kusmaus, Ерунду ты полную прочитал, на "зарубежных" форумах.
rss = sum(y_true - y_pred)^2, так что ошибаться там ему негде.

Написано более года назад
Правильная ли теория?

Максим Припадчев @Maksim_64

Алексей 〒., Ну ты даешь, в любом курсе по теории вероятности, при чем обычно в начале данный кейс известен как gambler's ruin problem. Если играть в игру с негативной ожидаемой величиной то стратегия не важна, закончишь в минусе. Проблема известна уже не одно столетие.

Написано более года назад
Почему Jupiter Notebook ругается на mglearn, даже после установки (через !pip install mglearn): "No module named 'mglearn'"?

Максим Припадчев @Maksim_64

Перезапуск restart kernel пробовал? Или даже заново перезапустить jupyter. Иногда это может быть необходимо после установки пакета из блокнота.

Написано более года назад
Сохраняется ли куда-то скриншот в Pyautogui?

Максим Припадчев @Maksim_64

Kllklok, Когда python создает объект он хранит его в оперативной памяти, если на объект не будет указывать не одна именованная ссылка, то сборщик мусора удалит объект.

Написано более года назад
Можно ли с ChatGPT создать отчеты и графики на основе GoogleSheets?

Максим Припадчев @Maksim_64

Vitaly Karasik, Ну я по pandas/polars специалист. Там смысла в них нет, по скольку надежность очень слабая. То есть LLM может написать иногда очень крутой запрос, а может заблудится в трех соснах. По скольку при работе с таблицами вопрос не в том работает/не работает, а корректны ли циферки, то я LLM в принципе не использую. А так использую иногда правда не gemini и не chatgpt, а phind (мое мнение насчет кода она лучшая) у меня прям в vscode расширением она установлена и я ей в качестве контекста файл из рабочей папки указываю, иногда помогает, полюс я ее использую при работе с докер, там хорошо прям помогает.

Написано более года назад
Memory Error при определении кодировки как чинить?
Максим Припадчев @Maksim_64
zisho, Попробуй, две вещи первая вот такое напраление чтение по частям

phone_numbers = pd.read_csv('test.csv',index_col='Номер Телефона',chunksize=1) dfs = [] counts = 0 numbers_of_interset = [777,333] for data in phone_numbers: index = data.index.intersection(numbers_of_interset) res = data.loc[index,:] dfs.append(res) counts+=res.shape[0] ( pd.concat(dfs) .to_csv('result.csv') ) print(f'found {counts} mutches')

Второе encoding = chardet.detect(data)['encoding'] смотри тебе не обязательно определять у всего файла, там можно по не которому количеству символов. Естественно, chunksize=1, должно быть не 1 а ну согласно своей оперативке. Если файл весит 2.2 гб в озу он может и больше весить. при чем и в два раза больше может весит, то есть дели общее количество строк в файле на несколько частей. 1 это я для своего примера сделал, и он их прочитал по частям.

Декомпозируй задачу больше. То есть на каком моменте виснет, на чтении, в фрейм, на chrdet. или на какой операции. вообще 2.2 это ерунда работать будет еще и быстро работать будет.

Написано более года назад
Memory Error при определении кодировки как чинить?

Максим Припадчев @Maksim_64

zisho, Ну будет работать, какой размер csv и код скинь как он у тебя там зависает.

Написано более года назад
Стоит ли уходить в Data Science?

Максим Припадчев @Maksim_64

math13, Для Российского рынка однозначно python, у нас по R вакансий очень мало.

Как вы считаете, нужно пристально в Python уходить вначале, параллельно изучая всю подноготную DS?
Просто в python без подноготной DS. Насчет математики 4 дисциплины.
1. Линейная алгебра (операции с матрицами и векторами на языке DS тензорами определенных порядков и их геометрические свойства играют большую роль).
2. Интегрирование дифференцирование функции с несколькими переменными (самое главное)
3. Теория вероятности
4. Статистика (что бы ее освоить на достойном уровне первые три должны на высоком уровне). По скольку это то с чем ты имеешь дело (У тебя есть наблюдения) а ты задаешься вопросом какой процесс сгенерировал эти данные.

Но на старте чистый python. Ты же математик (1 + 0.01)^n сам знаешь как работает. Сильное программирование это основание твоего будущего экспонентного роста. А оно требует времени постоянной практики, что бы ты привык мыслить как программист. Потом на это дело DS подтянешь.

Написано более года назад
Как убрать пробел между символами?

Максим Припадчев @Maksim_64

Gojo_Satoru, Нет, sep это сокращенно separator (разделитель). Если ты сделаешь print(1,2,3) то он их напечатает через пробел, по скольку значение по умолчанию для параметра sep=' '. Открой доки по функции print. Если ты например туда запятую поставишь то через запятую и т.д.

Написано более года назад
В чём ошибка данных поиска href TypeError: 'NoneType' object is not subscriptable?

Максим Припадчев @Maksim_64

dieneri, print(item.find(class_="link")) вот это что дает?

Написано более года назад
В чём ошибка данных поиска href TypeError: 'NoneType' object is not subscriptable?

Максим Припадчев @Maksim_64

dieneri, find('a') Возвращает None у тебя.
Ты можешь сделать print(type(item.find(class_="link").find('a'))) и увидишь NoneType.

Написано более года назад
Как добавить данные в Series через ссылку на объект?

Максим Припадчев @Maksim_64

Feor_slen, Конечно же есть. доки.pandas доки можно вполне читать как книгу. Куча хороших примеров.

Написано более года назад
Как на pandas получить подобие оконной функции SQL?
Максим Припадчев @Maksim_64
Сергей c0re, Неплохо, для того кто только учится с pandas работать. Дам тебе пару тройку советов, если предстоит писать pandas в проде. Сейчас может они тебе покажутся лишними но потенциально они могут с экономить недели времени.
1. Когда решаешь pandas проблему то старайся решать класс проблем а не конкретную и оборачивать это дело в функцию (сам завпрос например), где параметры функции это частности (в том числе и твоя проблема)

2. изучи из доков .pipe()

3. налегай на chaining ты можешь комментировать раскомментировать строки внутри chain это экономит тьму времени, когда нужно смотреть двигаешься ты в нужном направлении или нет.

Иотого твоя большая pandas проблема делится декомпозируется на подпроблемы, оборачивается в функции и затем ты это дело выстраиваешь в pipeline методом pipe. Псевдо код будет такой.

original_frame = pd.DataFrame(data=some_data) def first_function(df:pd.DataFrame,*args,**kwargs)->pd.DataFrame: pass def second_function(df:pd.DataFrame,*args,**kwargs)->pd.DataFrame: pass def third_function(df:pd.DataFrame,*args,**kwargs)->pd.DataFrame: pass result = ( original_frame .pipe(first_function,*args, **kwargs) .pipe(second_function,*args, **kwargs) .pipe(third_function,*args, **kwargs) ... ... .pipe(last_function,*args,**kwargs) )

Вот таким образом твой pandas код не превратится во что то нельзя поддерживать улучшать и т.д. И ты будешь иметь доступ к каждому уровню своей декомпозированной большой проблемы.

Удачного кодинга.

Написано более года назад

Самые активные сегодня

Drno
- 3 ответа
- 0 вопросов
mhogolikii
- 1 ответ
- 1 вопрос
Valdemar Smörman
- 2 ответа
- 0 вопросов
#
- 2 ответа
- 0 вопросов
Nightmare A
- 1 ответ
- 1 вопрос
Михаил Лялин
- 2 ответа
- 0 вопросов