Memory Error при определении кодировки как чинить?

Question

zisho @zisho

Python

Memory Error при определении кодировки как чинить?

Писал код который ищет значения заданные пользователем в csv файле но была проблема разных кодировок и я изменил скрипт теперь MemoryError как это починить

Код:

import os
import csv
import chardet

choose = input('тест:')

if choose == '1':
    number = input('Введи номер телефона (Например: 7XXXXXXXXXX):')
    print('Поиск займет от 5 до 10 минут...')
    
    os.chdir('bd')
    os.chdir('numbers')
    
    def search_in_csv(result, search_term):
        count = 0
        found_rows = []
        
        with open(result, 'rb') as csvfile:
            data = csvfile.read()
            encoding = chardet.detect(data)['encoding']
        
        with open(result, newline='', encoding=encoding) as csvfile:
            csvreader = csv.reader(csvfile, delimiter=';')
            for row in csvreader:
                found = False
                for value in row:
                    if search_term.lower() in value.lower():
                        found = True
                        break
                if found:
                    count += 1
                    found_rows.append(row)
        
        print(f"Количество совпадений: {count}")
        for row in found_rows:
            print(*row, sep='|')
    
    for name in 'GetContact_2021_59kk', 'part2':
        format_bd = 'csv'
        delimiters = '.'
        result = name + delimiters + format_bd
        search_term = number
        search_in_csv(result, search_term)

Вопрос задан более года назад
85 просмотров

3 комментария

Подписаться 1 Простой 3 комментария

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

zisho @zisho Автор вопроса

К сожалению не работает, при работе через пандас мой пк зависает и ни на что не реагирует, приходится перезагружать

Написано более года назад
Максим Припадчев @Maksim_64

zisho, Ну будет работать, какой размер csv и код скинь как он у тебя там зависает.

Написано более года назад
zisho @zisho Автор вопроса

Максим Припадчев, размер csv: 2,22 гб, код сейчас скину с пк

Написано более года назад

zisho @zisho Автор вопроса

Максим Припадчев, код:

import os
import pandas as pd
import chardet

choose = input('тест:')

if choose == '1':
    number = input('Введи номер телефона (Например: 7XXXXXXXXXX):')
    print('Поиск займет от 5 до 10 минут...')

    os.chdir('bd')
    os.chdir('numbers')

    def search_in_csv(result, search_term):
        encoding = None
        with open(result, 'rb') as csvfile:
            data = csvfile.read()
            encoding = chardet.detect(data)['encoding']

        phone_numbers = pd.read_csv(result, index_col='Номер Телефона', encoding=encoding)

        numbers_of_interest = [int(search_term)]
        index = phone_numbers.index.intersection(numbers_of_interest)
        not_found = pd.Index(numbers_of_interest).difference(phone_numbers.index)

        found_rows = phone_numbers.loc[index, :]
        found_rows.to_csv('result.csv', index=False)

        print(f"Количество совпадений: {found_rows.shape[0]}")
        if not_found.size > 0:
            print(f"Следующие номера не были найдены: {not_found}")

    for name in 'GetContact_2021_59kk', ' ':
        format_bd = 'csv'
        delimiters = '.'
        result = name + delimiters + format_bd
        search_term = number
        search_in_csv(result, search_term)

Написано более года назад

Максим Припадчев @Maksim_64
zisho, Попробуй, две вещи первая вот такое напраление чтение по частям

phone_numbers = pd.read_csv('test.csv',index_col='Номер Телефона',chunksize=1) dfs = [] counts = 0 numbers_of_interset = [777,333] for data in phone_numbers: index = data.index.intersection(numbers_of_interset) res = data.loc[index,:] dfs.append(res) counts+=res.shape[0] ( pd.concat(dfs) .to_csv('result.csv') ) print(f'found {counts} mutches')

Второе encoding = chardet.detect(data)['encoding'] смотри тебе не обязательно определять у всего файла, там можно по не которому количеству символов. Естественно, chunksize=1, должно быть не 1 а ну согласно своей оперативке. Если файл весит 2.2 гб в озу он может и больше весить. при чем и в два раза больше может весит, то есть дели общее количество строк в файле на несколько частей. 1 это я для своего примера сделал, и он их прочитал по частям.

Декомпозируй задачу больше. То есть на каком моменте виснет, на чтении, в фрейм, на chrdet. или на какой операции. вообще 2.2 это ерунда работать будет еще и быстро работать будет.
Написано более года назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 136 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 98 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 85 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 91 просмотр
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 236 просмотров
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 270 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 171 просмотр
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 150 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 271 просмотр
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 156 просмотров
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Почему так трудно полностью ошибку написать?
когда именно происходит Memory Error? значения number на это влияет?
зачем сохранять в found_rows, когда можно сразу сделать print и не держать найденное в памяти
search_term.lower() тоже можно один раз сделать, а не на каждый поиск в ячейки
Everything_is_bad, ошибка появляется При чтении GetContact_2021_59kk. Сделать так, как вы написали, я не знаю как так сделать

Answer 1 · 2024-04-07 15:53:23

используй для чтения csv pandas, на случай если они там огромные, то с параметром chunksize=количество строк (по простому чтение по частям) и encoding=то что chardet вернул. Далее поставь колонку с номерами телефона в индекс (для пандас не уникальные индексы это совершенно нормально) и верни csv файл с совпадениями. Код будет что то вроде этого. Предположим это твой csv файл

Номер Телефона,Имя,Фамилия
333,Иван,Петров
333,Василий,Сидоров
444,Петр,Прямой
333,Федор,Кривой

import pandas as pd
phone_numbers = pd.read_csv('test.csv',index_col='Номер Телефона')
numbers_of_interset = [777,333]
index = phone_numbers.index.intersection(numbers_of_interset)
not_found = pd.Index(numbers_of_interset).difference(phone_numbers.index)
(
    phone_numbers.loc[index,:]
   .to_csv('result.csv')
)

Читаем в фрейм и устанавливаем номер телефона в индекс, numbers_of_interest это те номера которые ты хочешь вернуть в качестве выборки если они есть в файле, делаем intersection с индексом фрейма, также находим те что не нашлись. Записываем файл только с теми что есть. При необходимости выводим те что не нашлись хранятся в not_found.

Если они очень большие и требуют чтения по частям обратись к докам pandas ну или вот пример использования https://www.geeksforgeeks.org/how-to-load-a-massiv...

Ну и если тебе не нужна вся выборка а только количество совпадений мне это не очевидно из твоего вопроса, то в контексте моего примера
print(phone_numbers.loc[index,:].shape[0]) Даст тебе количество.

Memory Error при определении кодировки как чинить?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт