Скорее 3й способ, только хочется как-то унифицировать такой подход, сделать не зависимым от предметной области. Чтобы запросы можно было удобно писать и не сильно замедлило производительность.
Минимальный набор индексов ~7G, под ключи выделено 3G, но я бы не сказал что диск используется на полную мощность. Проц. грузит все ядро, может как-то можно распараллелить, сама таблица ~6G но все равно считает 10 часов, я думаю что скорость должна быть сравнима с копированием файла в 6G, просто с большей нагрузкой на процессор.
Да, для обработки используются транзакции, раз в 100 записей делается коммит, хотя я не заметил особого прироста производительности для данной задачи с autocommit=0/1.
На таких больших данных работают какие-то другие законы и хитрости, пока не понятно в какую сторону копать.
Написано
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.