Задать вопрос

Максим Припадчев

ML Engineer

490

вклад
0

вопросов
499

ответов
54%

решений

Ответы

Как в сделать Pandas объединение строк группирую по определнному столбцу?
Максим Припадчев @Maksim_64
ML Engineer
Ну на сам деле задачка на 5 минут, есть определенные методы заполнения пропущенных значений, 'ffill' forward fill и 'bfill' backward fill. Они и есть ключ к решению, далее группировка происходит без проблем, и дальнешее дело техники, при чем многими способами, например так.

f = pd.DataFrame({ 'A':['a',np.NaN,np.NaN,'b',np.NaN,np.NaN,np.NaN,'v',np.NaN,np.NaN,'d',np.NaN,np.NaN], 'B':['foo','foo','bar','bar','bar','foo','bar','foo','bar','foo','bar','foo','bar'] }) result = ( df .groupby(df['A'] .fillna(method='ffill'))['B'] .apply(lambda x: ','.join(x)) .reset_index() ) result

Ответ написан более года назад

1 комментарий
1 комментарий
AI программисты ученые или обычные разработчики?

Максим Припадчев @Maksim_64
ML Engineer

1. Про взаимодействие:
программирование прикладная дисциплина, и осуществлять работу с так называемым AI может совершенно любой человек. Среди людей работающих с така называемым AI есть физики, химики, биологи, экономисты, финансисты, разработчики игр, веб разработчики, люди не имеющие четкой специализации и т.д.

2. Про разработку:
современный AI требует взаимодействия множества разных специалистов.

3. Итог:
да есть ученые работающие над созданием AI примеров много, из известных ну например, Yoshua Bengio. Это один из явных примеров именно ученого. Но есть и не ученые работающие именно над созданием новых систем AI, и работают эти люди, как в маленьких компаниях, так и в корпорациях.

Ответ написан более года назад

Комментировать

Комментировать
Как добавить данные в Series через ссылку на объект?

Максим Припадчев @Maksim_64
ML Engineer

Вообще так с pandas не работают.
1. pandas имеет мощный I/O как следствие эксель в том числе читают прямо в фрейм. Есть функции read_excel и другие, дополнительно перед этим установив различные reader's writer's например openpyxl и др.

2. Если ты собираешься создать series из python объекта, с числовыми индексами то это list. Если с именованными индексами но это словарь. То есть собирай в словарь или лист. Seires это однородный массив и с именованными индексами, и for циклами их не процессируют.

Ответ написан более года назад

2 комментария

2 комментария
Как сделать таблицу с возможностью скачать выбранные строки html/js?

Максим Припадчев @Maksim_64
ML Engineer

Тебе нужна библиотека dash+plotly Там и таблицы и графики и приблизительно все что угодно. В качестве хранилища данных может быть, как pandas датафрейм так и база данных. Таблицу как в примере сделать довольно просто. Документация очень большая и очень толковая, там элементарно найдешь полный пример запросов к фрейму и отображения в виде таблиц, график и т.д.

Ответ написан более года назад

1 комментарий

1 комментарий
Как на pandas получить подобие оконной функции SQL?
Максим Припадчев @Maksim_64
ML Engineer
Ну много способов есть, но самый верный смотреть в сторону groupby.

( df. assign(latest=lambda x:x .groupby("some_name")["date_time"] .transform(pd.Series.nlargest, 1) ) .loc[lambda x: x['date_time'] == x['latest'],:] )

Ответ написан более года назад

11 комментариев
11 комментариев
Как скорректировать запрос для поиска подстроки?
Максим Припадчев @Maksim_64
ML Engineer
Во первых ==True здесь совершенно лишнее, contains вернет массив длинной ff['B'], где True, будет означать берем данную строку, ок он не выдаст ошибку, но он тут абсолютно лишний и ничего не делает.

Во вторых, обычно str.contains обычно используют вместе с регуляркой. Предоставляют выражения также используют flags для установки различных параметров, например осуществить поиск не чувствительным к регистру, для примера.

import re searchstr=( ff.loc[ff['B'] .str.contains(r'строка',regex=True,flags=re.IGNORECASE),['А','B'] ] )
Выберет подсет датафрейма ff (колонки 'A' и 'B'), где в 'В' содержится 'строка'.

Ответ написан более года назад

Комментировать
Комментировать
Что учить дальше?

Максим Припадчев @Maksim_64
ML Engineer

Твоя задача получать опыт. Опыт приходит на проектах, соответственно, учи все что необходимо для проекта. И не расплескивайся особенно как начинающий специалист. Сильный чистый python + доменные знания в области применения, и то и то оттачивается на реализованных проектах.

Ответ написан более года назад

Комментировать

Комментировать
Автоматизация гостиницы — реальность или фантазия?

Максим Припадчев @Maksim_64
ML Engineer

Безотносительно законодательных аспектов, экономически не рентабельно, только на продажу (возможно какая нибудь инновационная компания может его купить в целях саморекламы). Как бизнес такой проект будет работать в убыток.

Ответ написан более года назад

4 комментария

4 комментария
Мне использовать те же параметры нормализации, что были на обучающем или нормализовать данные с нуля?

Максим Припадчев @Maksim_64
ML Engineer

Хороший вопрос. Есть правило никогда не использовать метод fit на тестовом сете. Иными словами будьто нормализация, скалинг, стандартизация или другие трансформации, ты никогда не находишь никакие параметры в тестовом наборе - это грубая ошибка. А всегда используешь только тренировочный набор. По этому все свои mean, std и прочее ты берешь только из тренировочного набора.

В scikit-learn есть трансформаторы, к примеру StandardScaler так вот у него есть методы fit, transform и fit_transform. Так вот для тестового дата сета ты используешь только transform и никогда fit или fit_transform. Что означает применить трансформацию к тестовому сету с параметрами посчитанными на тренировочном сете.

С нейронными сетями абсолютно тоже самое без каких либо исключений.

Ответ написан более года назад

7 комментариев

7 комментариев
Что не так с рекурсией?

Максим Припадчев @Maksim_64
ML Engineer

если у рекурсивного кейса отсутствует return то , базовый кейс останавливает рекурсию, но не завершает функцию. То есть после return int(answer) выхода из функции не происходит (только рекурсивный вызов остановлен). python идет дальше, пропускает else, затем у функции отсутствует return и он возвращает None.

Что бы пофиксить надо добавить return к рекурсивному кейсу то есть return gen_nums(stop_n, number)

Ответ написан более года назад

Комментировать

Комментировать
Почему python возвращает существующий объект, вместо создания нового?
Максим Припадчев @Maksim_64
ML Engineer
Надо же, выглядит все это крайне сомнительно. Сеты мутабельные объекты и оптимизация, как c int или str тут не при чем. При том такое поведение только если я создаю объект налету. К примеру если я соберу их в список

empty_sets = [] for _ in range(3): empty_sets.append(set()) for obj in empty_sets: print(id(obj))

То работает как и ожидается.
Или
a = set() b = set() a is b
Тоже как и ожидается.

Пока экспериментировал вот что обнаружил

for _ in range(3): print(id([]))

Тоже самое при этом

for _ in range(3): print(id(list()))

Как и ожидается объекты разные.

Мое мнение крайне сомнительное поведение.

Ответ написан более года назад

Комментировать
Комментировать
Как создать новый массив, объединив каждый элемент 1го с каждым 2 ого?
Максим Припадчев @Maksim_64
ML Engineer
Выглядит как декартово произведение только где элементы это массивы с последующим распремлением.

На питоне что то вроде этого

import itertools [list(itertools.chain.from_iterable(x)) for x in (list(itertools.product(A,B)))]

Прямой функции в numpy нету плюс у тебя данные не однородные то есть тебе при создании numpy массива придется указать параметр dtype='object', что означает python объект (до свидания скорость). Посмотри реализации в интернете, но массивы не однородные, так что толку по скорости не будет.

Ответ написан более года назад

Комментировать
Комментировать
Как вытащить из текста эмоджи?
Максим Припадчев @Maksim_64
ML Engineer
В целом тебе нет необходимости для "удаления" вытаскивать в отдельную колонку. Обычно из фрейма ничего не удаляют, его не изменяют, а извлекают из него подсеты которые отвечают твоим требованиям. Код придется картинкой опубликовать а то форматирование не поддерживает эмоджи.

Если ты не знаешь всех своих эмоджи то есть библиотеки получи все юникоды своих эмоджи и проверяй строку не содержит ли она юникод эмоджи, это будет очень медленно. лучше выбрать их несколько я думаю там их не много и как у меня в примере просто пусть их там десятка два будет а не два. Можно также попробовать простенькой регуляркой отловить что то типа такого

df[df['comment_text'].str.contains(r'[^\w\s,]', regex=True)]
Для моего примера работает, сработает ли в целом неизвестно.

Ответ написан более года назад

4 комментария
4 комментария
Почему результат выполнения функции сохраняется между вызовами?
Максим Припадчев @Maksim_64
ML Engineer
Потому что объект список мутабельный объект rez = []. Ты ожидаешь, что при каждом новом вызове функции у тебя создается пустой список res, а это не так почитай к чему ведет мутабельные типы в качестве значений по умолчанию у параметров функции.

1. В первом случае ты вызываешь первый раз работает как ожидаешь, но но список res уже создан и существует.
2. В втором ты оставляешь без изменения свой дефолтный параметр (список), а он то уже заполнен, и он просто добавляет в него.
3. В третьем случе ты передаешь новый список (новый объект). По этому работает нормально.

Общий кейс для решения таких проблем как то так.

def test(n, rez = None): if rez is None: rez = [] for i in range(n): rez.append(i) return rez

Ответ написан более года назад

Комментировать
Комментировать
Как оценить напрямую результаты классификации и регрессии?
Максим Припадчев @Maksim_64
ML Engineer
Ну у твоей модели есть метод predict. Что то вроде этого.

df['predictions'] = ( model .predict(X) .replace({0:'Метка ассоциируема с 0', 1:'Метка ассоциируемая с 1'}) )

Где, X это входные данные массив фич.

Все самые лучшие примеры лежат в доках scikit-learn это вообще где брать примеры относительно ML, а это классический классификатор распознаватель цифр, твой пример куда проще так как у тебя бинарная классификация.

Ответ написан более года назад

Комментировать
Комментировать
Почему удаление отклоненных значений удаляет так много данных?
Максим Припадчев @Maksim_64
ML Engineer
Ну если у тебя одинаковых значений много, на приграничных значениях (low, upper) возможно ты все удаляешь такие значения.

Если тебе надо отфильтровать фрейм по возрасту (5 персентиль 95 персентиль). Используй что нибудь вроде такого.

low = df['Age'].quantile(0.05) upper = df['Age'].quantile(0.95) df[df['Age'].between(low, upper)]

Ну и не забудь про параметры метода quantile, например задать interpolation (интерполяцию). По у молчанию там линейная среднее между двумя значения, можешь например поставить 'nearest' и будет идентичное поведение np.percentile()

Ответ написан более года назад

Комментировать
Комментировать
Как показать подписи промежуточных делений в matplotlib?

Максим Припадчев @Maksim_64
ML Engineer

https://matplotlib.org/stable/api/_as_gen/matplotl...
xticks. Устанавливаешь два массива, один это ticks локации, второй это (опционально) это ассоцируемые метки с этими локациями. Например для этого графика. plt.xticks(range(2006,2023)) Второй параметр в данном случае тебе не нужен. Глянь пример из доков, также. Да и имей ввиду если ты используешь ооп апи, работаешь с объектами axes, то там set_xticks и set_xticklabels. То есть на два метода этот функционал разбит, например https://www.geeksforgeeks.org/matplotlib-axes-axes...

Ответ написан более года назад

Комментировать

Комментировать
Как вызвать функцию, название которой записано в переменной?

Максим Припадчев @Maksim_64
ML Engineer

eval(func_name)()

Ответ написан более года назад

Комментировать

Комментировать
Как youtube детектирует использование нейросети при создании видеоконтента?

Максим Припадчев @Maksim_64
ML Engineer

Путем другой нейросети, которую обучали различать контент созданный нейросетью или человеком. Как создавали такую сеть? Да также как и другие, создали множество контента средствами AI и дали обычный контент созданный людьми и поставили метки AI not AI, бинарная классификация. И обучили, все.

Ответ написан более года назад

Комментировать

Комментировать
Как правильно обработать данные и записать их снова?
Максим Припадчев @Maksim_64
ML Engineer
for i in time: data = change_data(i)
Ну ты перезаписываешь свои данные да и все. То есть в data у тебя остается последний результат вызова функции для последнего i.
Затем ты присваеваешь benz_df['time'] = data колонке time, значение data. Он его броадкастит на всю колонку да и все. Ты ожидаешь что data это массив c данными, а это одно значение.

По коду сделай data вне цикла пустым списком и добавляй туда результат вызова своей функции. То есть вот так
data= [] for i in time: data.append(change_data(i))

Ну а вообще так делать не правильно, все эти операции надо производить средствами pandas
хотя бы как то так.

benz = pd.read_xml(benz_xml_file, xpath='.//filling') benz_df = pd.DataFrame(benz) benz_df['time'] = benz_df['time'].apply(change_data) benz_df['time'][:50]

Ответ написан более года назад

1 комментарий
1 комментарий

Самые активные сегодня

Вячеслав Васильев
- 6 ответов
- 0 вопросов
Сережа Молодец
- 4 ответа
- 1 вопрос
VoidVolker
- 2 ответа
- 0 вопросов
GoogleGuy123
- 1 ответ
- 0 вопросов
Дмитрий
- 1 ответ
- 0 вопросов
SagePtr
- 1 ответ
- 0 вопросов