Как правильно обработать колонки в датафрейме?

Question

just_clarity @just_clarity

Python

Как правильно обработать колонки в датафрейме?

Я делаю себе разбивалку файлов.
Возникла проблема с типами, если тип дата, то я ее немного преобразую, а вот с числами беда.
Результат поиска привел меня к чему-то типа такого:

for col in df.columns:
    if pd.api.types.is_datetime64_dtype(df[col]):
        df[col] = pd.to_datetime(
            df[col], dayfirst=True, errors='coerce', format='%d/%m/%Y')
        # pd.to_datetime(df[col]).dt.strftime('%d.%m.%Y')
    else:
        if all([isinstance(val, str) and '.' in val and val.count('.') == 1 for val in df[col].astype(str)]):
            df[col] = df[col].astype(str).str.replace(".", ",")
        else:
            df[col] = df[col].astype(str).apply(lambda x: '{:.0f}'.format(float(x)) if '.' in x else x)
        df[col].replace('nan', None, inplace=True)

Я пытаюсь сделать так, чтобы все столбцы кроме даты были str, но мне надо столбец с суммой чтобы был с запятой в числе(чтобы в дальнейшем я мог в экселе его обрабатывать) (я пытался сделать через количество точек, но у меня есть поля с текстом, в которых бывает по одной точке)+ длинные числа (коды) нужны без научной записи(с Е).
Я уже запутался в lambda, как исправить?

Когда я решил, что будет умно проверять на одну точку

ValueError: could not convert string to float: 'в соответствии с  227, 227.1 и 228'

Вопрос задан более трёх лет назад
823 просмотра

1 комментарий

Подписаться 1 Простой 1 комментарий

just_clarity @just_clarity Автор вопроса

UPD:

for col in df.columns:
            if pd.api.types.is_datetime64_dtype(df[col]):
                df[col] = pd.to_datetime(
                    df[col], dayfirst=True, errors='coerce', format='%d/%m/%Y')
            else:
                df[col] = df[col].astype(str)
                if df[col].str.match(r'^\d+\.\d+$').any():
                    df[col] = pd.to_numeric(df[col], errors='coerce')
            df[col].replace('nan', None, inplace=True)

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

3 комментария

just_clarity @just_clarity Автор вопроса

Проблема в том, что таблицы у меня в файлах разные и мне надо еще как-то определить что там (не руками)

Написано более трёх лет назад
just_clarity @just_clarity Автор вопроса
# преобразование столбца code в строку и замена буквы E на 0 df['code'] = df['code'].astype(str).str.replace('E', '0')

у меня вообще Е+19 получается) куча лишних нулей приписывается. что даст замена Е на 0
Написано более трёх лет назад
Владимир Бобровский @a777mp198
(Ответ сгенерирован искусственным интеллектом!)
just_clarity, для автоматического определения типа столбца в Pandas можно воспользоваться методом pandas.api.types.infer_dtype, который позволяет определить тип данных в столбце на основе его содержимого.
Например, чтобы определить тип столбца в цикле, можно использовать такой код:

import pandas as pd from pandas.api.types import is_numeric_dtype # загрузка данных df = pd.read_csv('data.csv') # определение типа столбцов for col in df.columns: col_dtype = pd.api.types.infer_dtype(df[col]) if col_dtype == 'datetime64[ns]': df[col] = pd.to_datetime(df[col], dayfirst=True, errors='coerce', format='%d/%m/%Y') elif is_numeric_dtype(df[col]): # обработка числового столбца if '.' in df[col].astype(str).tolist(): df[col] = df[col].astype(str).str.replace(".", ",") else: df[col] = df[col].astype(str).str.replace("E", "0") else: # обработка текстового столбца # ...

Здесь мы используем функцию is_numeric_dtype из модуля pandas.api.types, чтобы проверить, является ли столбец числовым. Если да, то мы обрабатываем его с помощью методов str.replace и astype. Если столбец не является числовым, то мы можем обработать его как текстовый столбец.

Замена буквы E на 0 не решит проблему с научной записью чисел, если в числе имеются многие порядки. Например, число 1e19 (эквивалентное числу 10000000000000000000) будет преобразовано в строку '10000000000000000000', которая все еще содержит многие порядки.

Для преобразования чисел в строковое представление без научной записи можно воспользоваться методом pd.options.display.float_format. Например, можно задать формат, в котором числа будут иметь 2 знака после запятой и ширину поля 20 символов:

import pandas as pd # пример данных data = { 'date': ['2022-01-01', '2022-01-02', '2022-01-03'], 'code': [100000000000000, 200000000000000, 300000000000000], 'amount': [1000.50, 2000.75, 3000.0], 'text': ['some text', 'more text', 'even more text'] } df = pd.DataFrame(data) # задание формата вывода чисел pd.options.display.float_format = '{:.2f}'.format # вывод результата print(df)

Здесь метод pd.options.display.float_format устанавливает формат вывода чисел с двумя знаками после запятой и шириной поля 20 символов. Таким образом, числа в столбце amount будут иметь вид '1000.50' вместо '1000.5' и не будут иметь научную запись.

Однако, следует учитывать, что этот метод изменяет формат вывода чисел для всего скрипта, поэтому его следует использовать осторожно. Если необходимо задать формат только для определенного столбца, можно воспользоваться методом apply и лямбда-функцией:

df['amount'] = df['amount'].apply(lambda x: '{:.2f}'.format(x))
Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- вчера
- 70 просмотров
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 87 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 296 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 233 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 647 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 550 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 307 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 563 просмотра
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 227 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 140 просмотров
1

ответ
Показать ещё Загружается…

UPD:

for col in df.columns: if pd.api.types.is_datetime64_dtype(df[col]): df[col] = pd.to_datetime( df[col], dayfirst=True, errors='coerce', format='%d/%m/%Y') else: df[col] = df[col].astype(str) if df[col].str.match(r'^\d+\.\d+$').any(): df[col] = pd.to_numeric(df[col], errors='coerce') df[col].replace('nan', None, inplace=True)

Answer 1 · 2023-03-10 10:31:34

(Ответ сгенерирован искусственным интеллектом!)
Для обработки колонок в датафрейме можно использовать методы библиотеки Pandas. Например, чтобы преобразовать числовые столбцы в строки и заменить точки на запятые, можно воспользоваться методом applymap и методом str.replace:

import pandas as pd

# пример данных
data = {
    'date': ['2022-01-01', '2022-01-02', '2022-01-03'],
    'code': [100000000000000, 200000000000000, 300000000000000],
    'amount': [1000.50, 2000.75, 3000.0],
    'text': ['some text', 'more text', 'even more text']
}
df = pd.DataFrame(data)

# преобразование числовых столбцов в строки с запятыми
df[['amount', 'code']] = df[['amount', 'code']].applymap(lambda x: f'{x:,.2f}')

# замена точек на запятые в столбце amount
df['amount'] = df['amount'].str.replace('.', ',')

# вывод результата
print(df)

Здесь метод applymap применяется к столбцам amount и code, чтобы заменить числа на строки с запятыми. Затем метод str.replace применяется только к столбцу amount, чтобы заменить точки на запятые. Все остальные столбцы остаются в исходном виде.

Чтобы избежать научной записи в столбце code, можно преобразовать его в строку и затем заменить букву E на 0:

# преобразование столбца code в строку и замена буквы E на 0
df['code'] = df['code'].astype(str).str.replace('E', '0')

# вывод результата
print(df)

Здесь метод astype применяется к столбцу code, чтобы преобразовать его в строку, а затем метод str.replace заменяет точки на запятые в строковом представлении столбца. Однако, в данном коде не учитывается возможность наличия в столбце символов, отличных от точек и цифр.

Как правильно обработать колонки в датафрейме?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт