Как записать список DataFrame в другой DataFrame большой объём данных?
имеется большой CSV файл. После некоторой его оптимизации и разбивки на кусочки, мне необходимо все его DataFrame(n) записать в один большой DataFrame(main). Я реализовывал это через merge, и проблема заключается в том, что на некотором этапе работы программы, для записи фрейма(n) в 20 мб, необходимо открыть фрейм(main) в несколько ГБ. Записав всё фреймы(n) в список, каким образом можно их все записать в основной фрейм, не открывая его для каждой записи?
Возможно я ошибаюсь, и он не открывается постоянно, а висит в ОЗУ, но сильно падает скорость записи через +- 200 итераций записи.
Алан Гибизов, цель - анализировать большой csv файл, разбив его на много частей. После разбивки, поочерёдно, каждый файл подгружается, оптимизируется, и соединяется с основным DF. И по моим подсчётам, сделав оптимизацию и вытянув только необходимые данные, я сэкономлю порядка 24 Гб оперативной памяти (по сравнению с представлением CSV в DF).
Алан Гибизов, найти дубликаты строк за минимальное время и записать их в новый файл, память, процессорное время. Порядка 26 млн строк. Задача не подразумевает наличие БД, максимум SQLite3, да и то, скорее всего, задача на умение находить нестандартные решения в плане оптимизации.
MakarMS, либо вы приводите своё (пусть неудачное) решение (код не забудьте вставить в вопрос и обернуть тегом code) и тогда будет что обсудить и о чём говорить. Либо вам на freelance.habr.com