Почему pandas неправильно обрабатывает числа из csv?

Question

M-Pack @M-Pack

Python
CSV

Почему pandas неправильно обрабатывает числа из csv?

После выполнения этого кода:

col_names = ['Project', 'OrderDate', 'orderid', 'ClientID','IsRepeat','IsBlocked','IsManual','AutoDecision','ManualApprove','IsLoan','ShortTermAmount','ShortTermPeriod','LongTermAmount','LongTermPeriod','RequestedAmount','RequestedPeriod','LoanSum','Period','ShortTermScore','LongTermScore']
#dtypes={"Project": bool, "OrderDate": 'str', "orderid": int, "ClientID" : int,"IsRepeat" :bool,"IsBlocked":bool,"IsManual":bool,"AutoDecision":bool,"ManualApprove":bool,"IsLoan":bool,"ShortTermAmount":"Int64","ShortTermPeriod":"Int64","LongTermAmount":"Int64","LongTermPeriod":"Int64","RequestedAmount":"Int64","RequestedPeriod":"Int64","LoanSum":"Int64","Period":"Int64","ShortTermScore":"float64","LongTermScore":"float64"}
test = pd.read_csv("/home/man/Test_task.csv",sep=',', thousands =',', header = 0, decimal='.', names=col_names, usecols=col_names).apply(pd.to_numeric, errors='coerce')#.astype('Float64')#,'Period': lambda x: np.float64(x) if x != '-' else np.nan})#'orderid': lambda x: int(x.replace(',','')) if x != '-' else np.nan, .fillna(0)
df = pd.DataFrame(data=test) 
df['ShortTermAmount'] = pd.read_csv("/home/man/Test_task.csv",sep=',', thousands =',', dtype = {'ShortTermAmount':"str"}, converters = {'ShortTermAmount': lambda x: x if x != '-' else np.nan}).fillna(0).replace(',', '').apply(pd.to_numeric, errors='coerce')
df.head()

Я получил такую таблицу:

Project 	OrderDate 	orderid 	ClientID 	IsRepeat 	IsBlocked 	IsManual 	AutoDecision 	ManualApprove 	IsLoan 	ShortTermAmount 	ShortTermPeriod 	LongTermAmount 	LongTermPeriod 	RequestedAmount 	RequestedPeriod 	LoanSum 	Period 	ShortTermScore 	LongTermScore
0 	1.0 	NaN 	1794004 	1040307 	NaN 	1.0 	NaN 	NaN 	NaN 	NaN 	1.0 	NaN 	NaN 	NaN 	6700 	12 	NaN 	NaN 	0.085 	0.085
1 	1.0 	NaN 	1794005 	1305335 	NaN 	1.0 	NaN 	NaN 	NaN 	NaN 	1.0 	NaN 	NaN 	NaN 	1900 	26 	NaN 	NaN 	0.017 	0.017
2 	1.0 	NaN 	1794021 	1174614 	1.0 	NaN 	NaN 	1.0 	NaN 	1.0 	1.0 	40.0 	NaN 	NaN 	4500 	20 	NaN 	20.0 	0.926 	0.926
3 	1.0 	NaN 	1794032 	1356306 	1.0 	NaN 	NaN 	1.0 	NaN 	1.0 	1.0 	40.0 	NaN 	NaN 	6000 	40 	NaN 	40.0 	0.679 	0.679
4 	1.0 	NaN 	1794057 	1120819 	1.0 	NaN 	NaN 	1.0 	NaN 	1.0 	1.0 	40.0 	NaN 	NaN 	70000 	168 	NaN 	40.0 	0.737

При том, что в моём изначальном csv файле (https://drive.google.com/file/d/1Oseh4KnE98tC3-jRy...) в некоторых колонках стоят другие значения. Так, в колонке ShortTermAmount, стоят целые числа, у которых тысячный разряд выделен запятой. При этом, числа из колонки RequestedAmount грузятся нормально, без запятой, и им потом присвайвается тип int64, а ShortTermAmount присваивается тип float64.

Как это исправить?

Вопрос задан более трёх лет назад
467 просмотров

7 комментариев

Подписаться 1 Средний 7 комментариев

Алан Гибизов @phaggi Куратор тега Python

На первый взгляд, есть разница - в колонке ShortTermAmount есть пустые ячейки, а в колонке RequestedAmount пустых ячеек нет. Возможно, в read_csv есть внутренняя логика, на которую этот факт влияет. Например, система заменяет пустые ячейки на NaN, а оно - float. Значит, вся колонка float.

Написано более трёх лет назад
Andy_U @Andy_U

А то, что и sep, и thousnds оба определены, как запятые, это нормально?

Написано более трёх лет назад
M-Pack @M-Pack Автор вопроса

Andy_U, sep правильный, иначе выкидывает ошибки. Запятую для thousands я написал именно для чтения чисел с запятой, однако, видимо она не на всех колонках работает.

Написано более трёх лет назад
M-Pack @M-Pack Автор вопроса

Алан Гибизов, Да, я из-за подобных мыслей converters засунул в read_csv) Потом заполнял nan-ы нулями и .astype (int) делал. Но все бестолку ...

Написано более трёх лет назад
Алан Гибизов @phaggi Куратор тега Python

M-Pack, слушай, ну может если ты точно знаешь, что там должно быть, и знаешь, что получается, то сделать костылик: явную проверку типа и приведение к нужному?

Написано более трёх лет назад
Andy_U @Andy_U

M-Pack, Я посмотрел на ваш файл на гугле. Если его скачать, то в той паре колонок, где запятые в тысячах, значения в двойных кавычках. Ну, и пусть остаются? Потом напильником доработаете. Ну или модулем csv прочитать, причесать, а потом уже в pandas

P.S. Я путаю, или последний питон формат float с запятыми распознает при вводе?

Написано более трёх лет назад
M-Pack @M-Pack Автор вопроса

Andy_U, в том то и дело, что в обоих колонках такая проблема, но одна пишет нормально(по-моему там RequestTermAmount) , и ставит int64 , а в другой ничего не читает да еще и во float64 переводит.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Чтобы сделать несколько запросов к OpenAI серверу из Python, нужно каждый раз вызывать client.chat.completions.create?
- 1 подписчик
- 15 часов назад
- 58 просмотров
2

ответа
Python

Простой
Какой отлдачик для Python поставить новичку?
- 1 подписчик
- вчера
- 100 просмотров
2

ответа
Python

Простой
Существует ли менеджер виртуальных окружений для python, который хранит все пакеты в одном месте?
- 3 подписчика
- 18 дек.
- 183 просмотра
1

ответ
Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 16 дек.
- 217 просмотров
1

ответ
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 16 дек.
- 73 просмотра
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 194 просмотра
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 221 просмотр
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 245 просмотров
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 239 просмотров
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Backend Developer

Hard Bootstrapping LLC. • Санкт-Петербург

от 175 000 до 350 000 ₽

На первый взгляд, есть разница - в колонке ShortTermAmount есть пустые ячейки, а в колонке RequestedAmount пустых ячеек нет. Возможно, в read_csv есть внутренняя логика, на которую этот факт влияет. Например, система заменяет пустые ячейки на NaN, а оно - float. Значит, вся колонка float.
А то, что и sep, и thousnds оба определены, как запятые, это нормально?
Andy_U, sep правильный, иначе выкидывает ошибки. Запятую для thousands я написал именно для чтения чисел с запятой, однако, видимо она не на всех колонках работает.
Алан Гибизов, Да, я из-за подобных мыслей converters засунул в read_csv) Потом заполнял nan-ы нулями и .astype (int) делал. Но все бестолку ...
M-Pack, слушай, ну может если ты точно знаешь, что там должно быть, и знаешь, что получается, то сделать костылик: явную проверку типа и приведение к нужному?
M-Pack, Я посмотрел на ваш файл на гугле. Если его скачать, то в той паре колонок, где запятые в тысячах, значения в двойных кавычках. Ну, и пусть остаются? Потом напильником доработаете. Ну или модулем csv прочитать, причесать, а потом уже в pandas

P.S. Я путаю, или последний питон формат float с запятыми распознает при вводе?
Andy_U, в том то и дело, что в обоих колонках такая проблема, но одна пишет нормально(по-моему там RequestTermAmount) , и ставит int64 , а в другой ничего не читает да еще и во float64 переводит.

Answer 1 · 2021-02-11 14:01:45

M-Pack @M-Pack Автор вопроса

Отвечаю cам, коли никто так и не ответил:

df1 = df.apply(lambda x: pd.to_numeric(x.astype(str).str.replace(',',''),errors='coerce'))

Ответ написан более трёх лет назад

Комментировать

Почему pandas неправильно обрабатывает числа из csv?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт