Как лучше всего организовать работу с большими списками в Python?

Question

loxnemamont @loxnemamont

Python

Как лучше всего организовать работу с большими списками в Python?

Есть софт на C#, который выполняет две простые задачи:
1) Из имеющегося списка int'ов в буфере обмена удалить те, которые имеются в списке int'ов в файле (10кк+ строк) и результат вернуть в буфер в виде списка int'ов и вывести на экран количество удаленных строк (дублей)
или
2) Добавить все строки int'ов в буфере обмена в имеющийся список в файл с удалением дубликатов и вывести на экран количество новых уникальных добавленных строк в файл
Изначально софт работал отлично, но в последнее время, с увеличением объема списков - стали постоянно вылезать какие-то глюки в логике работы софта, хотя код остался неизменным. В связи с чем было принято решение переписать код на другой ЯП, конкретно выбор пал на python.
Гугл привел меня к идее использования наборов (set([1,2,6,8]) - set([2,3,5,8]))
Так вот, хотелось бы уточнить, насколько это решение подходит для подобных объемов данных?
И как лучше организовать хранение этого большого списка на 10кк int'ов - в файле? бд? еще как-то?

Вопрос задан более трёх лет назад
150 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 11 часов назад
- 49 просмотров
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 208 просмотров
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 244 просмотра
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 158 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 132 просмотра
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 258 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 145 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 143 просмотра
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 148 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 264 просмотра
2

ответа
Показать ещё Загружается…

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

Answer 1 · 2022-10-28 17:02:38

Изначально софт работал отлично, но в последнее время, с увеличением объема списков - стали постоянно вылезать какие-то глюки в логике работы софта, хотя код остался неизменным. В связи с чем было принято решение переписать код на другой ЯП, конкретно выбор пал на python.

Мне не нравится ваше решение. Чисто технически C#/Net - генерирует более совершенный исполнимый код. И он и должен работать быстрее.

Дайте шанс c# приложению. Запустите под профайлером и найдите тот алгоритм или кусок кода который работает медленно.

Иначе вместо одной проблемы вы получите две новых. Python не славится рациональным хранением коллекций в памяти. Может быть еще хуже.

Как лучше всего организовать работу с большими списками в Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт