Как правильно посчитать количество строк в CSV при field larger than field limit (131072)?

Question

Николай Бараненко @drno-reg

см не кратко

Как правильно посчитать количество строк в CSV при field larger than field limit (131072)?

Здравствуйте.

Необходимо из Oracle перегнать данные в Vertica.
Решил воспользоваться через CSV файл, т.к. Vertica достаточно быстро их грузит.
На тестовых таблицах все без проблем.

Принятся работать с боевой схемой, все бы хорошо, НО по статистики из Oracle в CSV ушло 40 000 строк, после загрузки в Vertica оказалось на 300 меньше.
Ни ошибок ни чего.
Хочу разобраться почему так происходит, не нашел друго варианта кроме как посчитать количество строк в CSV файле, по идее их должно быть 40 0000.

вроде бы должно быть все тривиально,

with open(filename,"r", encoding='UTF8') as f:
    reader = csv.reader(f,delimiter = ";")
    data = list(reader)
    row_count = len(data)
print(row_count)

НО уперся в ограничение

data = list(reader)
_csv.Error: field larger than field limit (131072)

какие есть варианты обойти это узкое место или другие методы решения?

Вопрос задан более трёх лет назад
2743 просмотра

3 комментария

Подписаться 1 Оценить 3 комментария

Anton Kuzmichev @Assargin

Так 40000 или 400000?
Может это как-то связано со спецификой Vertica - колоночная БД и всё такое, но разве число столбцов более 100к - это нормально?
UPD: напишите свой парсер CSV или, если это возможно, "форкните" оригинальный CSV-reader, попробовав обойти это ограничение

Написано более трёх лет назад
sim3x @sim3x

https://stackoverflow.com/questions/15063936/csv-e...

Написано более трёх лет назад

Николай Бараненко @drno-reg Автор вопроса

sim3x: в этой ссылке есть вариант который работает

import sys
import csv
maxInt = sys.maxsize
decrement = True

while decrement:
    # decrease the maxInt value by factor 10
    # as long as the OverflowError occurs.

    decrement = False
    try:
        csv.field_size_limit(maxInt)
    except OverflowError:
        maxInt = int(maxInt/10)
        decrement = True

with open(filename,"r", encoding='UTF8') as f:
    reader = csv.reader(f,delimiter = ";")
    data = list(reader)
    row_count = len(data)
print(row_count/2)

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

4 комментария

Николай Бараненко @drno-reg Автор вопроса
пробовал уже такой вариант, НО в контексте есть поля из BLob в которых есть переводы строк исключают этот метод

para_counter = 0 prev = '\n' with open (filename, encoding='UTF8') as f: for line in f: if line != '\n' and prev == '\n': para_counter += 1 prev = line print(para_counter)

получается 79300, что ни есть правда (((
Написано более трёх лет назад
egor_nullptr @egor_nullptr

#> wc -l file.csv

Написано более трёх лет назад
Astrohas @Astrohas
Николай Бараненко: симтрикс ответил на ваш вопрос:
import sys import csv csv.field_size_limit(sys.maxsize)
Написано более трёх лет назад
Николай Бараненко @drno-reg Автор вопроса
такой вариант возвращает ошибку

OverflowError: Python int too large to convert to C long
Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 10 часов назад
- 39 просмотров
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 80 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 261 просмотр
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 233 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 640 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 548 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 305 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 560 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 226 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 140 просмотров
1

ответ
Показать ещё Загружается…

Так 40000 или 400000?
Может это как-то связано со спецификой Vertica - колоночная БД и всё такое, но разве число столбцов более 100к - это нормально?
UPD: напишите свой парсер CSV или, если это возможно, "форкните" оригинальный CSV-reader, попробовав обойти это ограничение
sim3x: в этой ссылке есть вариант который работает

import sys import csv maxInt = sys.maxsize decrement = True while decrement: # decrease the maxInt value by factor 10 # as long as the OverflowError occurs. decrement = False try: csv.field_size_limit(maxInt) except OverflowError: maxInt = int(maxInt/10) decrement = True with open(filename,"r", encoding='UTF8') as f: reader = csv.reader(f,delimiter = ";") data = list(reader) row_count = len(data) print(row_count/2)

Answer 1 · 2017-08-22 20:21:29

Astrohas @Astrohas

Python/Django Developer

Посчитать количество \n в файле?
UPD:
Подсмотрел у симтрикса

import sys
import csv

csv.field_size_limit(sys.maxsize)

Ответ написан более трёх лет назад

4 комментария

Answer 2 · 2017-08-22 21:06:18

благодарю всех,

рабочий вариант учитывающий все особенности у sim3x

import sys
import csv
maxInt = sys.maxsize
decrement = True

while decrement:
    # decrease the maxInt value by factor 10
    # as long as the OverflowError occurs.

    decrement = False
    try:
        csv.field_size_limit(maxInt)
    except OverflowError:
        maxInt = int(maxInt/10)
        decrement = True

with open(filename,"r", encoding='UTF8') as f:
    reader = csv.reader(f,delimiter = ";")
    data = list(reader)
    row_count = len(data)
print(row_count/2)

Как правильно посчитать количество строк в CSV при field larger than field limit (131072)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт