Почему функция read_csv в pandas неправильно обрабатывает целочисленные и десятичные числа из CSV файла?

Question

M-Pack @M-Pack

Python
CSV

Почему функция read_csv в pandas неправильно обрабатывает целочисленные и десятичные числа из CSV файла?

После написания такого кода:

import locale
import sys
from locale import atof
locale.setlocale(locale.LC_NUMERIC, '')
'en_GB.UTF-8'
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier 
from sklearn.model_selection import train_test_split 
from sklearn import metrics 
from sklearn.tree import export_graphviz
from six import StringIO  
from IPython.display import Image  
import pydotplus


col_names = ['Project', 'OrderDate', 'orderid', 'ClientID','IsRepeat','IsBlocked','IsManual','AutoDecision','ManualApprove','IsLoan','ShortTermAmount','ShortTermPeriod','LongTermAmount','LongTermPeriod','RequestedAmount','RequestedPeriod','LoanSum','Period','ShortTermScore','LongTermScore']
#dtypes={"Project": bool, "OrderDate": 'str', "orderid": "str", "ClientID" : "str","IsRepeat" :bool,"IsBlocked":bool,"IsManual":bool,"AutoDecision":bool,"ManualApprove":bool,"IsLoan":bool}# "ShortTermAmount":"Int64","ShortTermPeriod":"Int64","LongTermAmount":"Int64","LongTermPeriod":"Int64","RequestedAmount":"Int64","RequestedPeriod":"Int64","LoanSum":"Int64","Period":"Int64","ShortTermScore":"float64","LongTermScore":"float64"}
dtypes={"orderid": object, "ClientID" : object,"RequestedAmount":object,"RequestedPeriod":object}
parse_dates = ['OrderDate']
test = pd.read_csv("/home/man/Test_task.csv",sep=' , ', thousands=',', header=None, dtype=dtypes ,names=col_names, parse_dates=parse_dates, converters = {'Project': lambda x: bool(str(x)) if x != '-' else np.nan, 'IsRepeat': lambda x: bool(str(x)) if x != '-' else np.nan, 'IsBlocked': lambda x: bool(str(x)) if x != '-' else np.nan,'orderid': lambda x: int(x.replace(',','')) if x != '-' else np.nan, 'IsManual': lambda x: bool(str(x)) if x != '-' else np.nan, 'AutoDecision': lambda x: bool(str(x)) if x != '-' else np.nan, 'ManualApprove': lambda x: bool(str(x)) if x != '-' else np.nan, 'IsLoan': lambda x: bool(str(x)) if x != '-' else np.nan})#.fillna(0)
df = pd.DataFrame(data=test)
test.head()

Я получаю ошибку invalid literal for int() with base 10: 'orderid'.

Если я не пишу в conversion

'orderid': lambda x: int(x.replace(',','')) if x != '-' else np.nan,

, то заголовок таблицы печатается, но потом, при попытке подействовать на элементы таблицы как на числа, получаю ошибку, что нельзя действовать так на строки, при том, что pandas распознаёт dtype всех колонок как "object", а, судя по всему, вообще как "str".

Почему? Прилагаю сам csv файл.

https://drive.google.com/file/d/1Oseh4KnE98tC3-jRy...

по совету MaxU, я добавил обрамляющие пробелы в sep. Стало лучше, колонки LoanSum, Period, ShortTermScore, LongTermScore наконец-то стали распознаваться как float64, однако, теперь в этих колонках вместо чисел стоят NaN, и другие числовые колонки все также имеют тип object(хотя и с правильными числами).

Вопрос задан более трёх лет назад
964 просмотра

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 2

6 комментариев

M-Pack @M-Pack Автор вопроса

Теперь он говорит Number of passed names did not match number of header fields in the file

Написано более трёх лет назад
o5a @o5a

M-Pack, это он открытым текстом говорит, что количество столбцов данных не совпадает с количеством названий столбцов, которые передаете в names=col_names

Написано более трёх лет назад
M-Pack @M-Pack Автор вопроса

Но в том то и дело, что совпадает) Там 20 и там... Странно

Написано более трёх лет назад
o5a @o5a

M-Pack, не нужно было добавлять пробелы к указанию sep, из-за этого он не правильно определяет границы данных.
Лучше указывать как есть sep=','
А для пропуска пробелов использовать skipinitialspace=True

Написано более трёх лет назад
M-Pack @M-Pack Автор вопроса

Теперь он мне говорит Unable to parse string " - " at position 0...
Форматирование хабра не позволяет показать, но, после чёрточки , стоит два пробела

Написано более трёх лет назад
M-Pack @M-Pack Автор вопроса

Я даже пробовал с .apply(lambda x: (unidecode(x).replace(' ',''))) , но тоже самое

Написано более трёх лет назад

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 234 просмотра
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 254 просмотра
2

ответа
Python

Простой
В чем ошибка в использовании ft.ResponsiveView в данном коде?
- 1 подписчик
- 08 апр.
- 89 просмотров
1

ответ
Python

Простой
Можно ли указывать во flet heigh и width через проценты?
- 1 подписчик
- 02 апр.
- 109 просмотров
1

ответ
Python

Простой
Как правильно позиционировать элементы во flet?
- 1 подписчик
- 02 апр.
- 101 просмотр
1

ответ
Python

Простой
Почему может не отображаться страница во view(flet)?
- 1 подписчик
- 25 мар.
- 123 просмотра
1

ответ
Python

Средний
Asyncio + PySide6 + Telethon: список чатов и треды грузятся 30 минут — где искать причину?
- 2 подписчика
- 16 мар.
- 472 просмотра
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 4 подписчика
- 05 мар.
- 1015 просмотров
4

ответа
Python

Простой
Как запретить удаление полей класса?
- 1 подписчик
- 27 февр.
- 327 просмотров
1

ответ
Python

Простой
Как написать правильный код Pyhton?
- 1 подписчик
- 22 февр.
- 557 просмотров
2

ответа
Показать ещё Загружается…

Python developer

ITK academy • Краснодар

от 220 000 до 300 000 ₽

Python Developer

ITK academy • Краснодар

от 75 000 ₽

Python разработчик

DimaTech Ltd • Краснодар

от 140 000 до 140 000 ₽

Answer 1 · 2021-02-05 12:48:45

header=None говорит о том, что строка заголовка у данных отсутствует (что не верно), поэтому он пытается разобрать первую строчку с названиями заголовков, как данные.

укажите header=0

Answer 2 · 2021-02-05 16:33:18

Мне помогло дописать в конце строки:

test = pd.read_csv("/home/man/Test_task.csv",sep=',', thousands=',', header = 0, decimal='.',names=col_names, usecols=col_names, parse_dates=parse_dates)

(сonverters я убрал от туда вообще)

строку:

.apply(pd.to_numeric, errors='coerce')

Почему функция read_csv в pandas неправильно обрабатывает целочисленные и десятичные числа из CSV файла?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт