Как максимально быстро удалить дубли в большом (350Гб) файле?

Question

Twindo @Twindo

Как максимально быстро удалить дубли в большом (350Гб) файле?

Каким способом можно максимально быстро удалить дубли в большом (350Гб) файле (~10 миллиардов записей, строк длинной до 255 символов). Какие инструменты для этого лучше использовать (и как их тюнить под эту задачу)? Поделитесь реальным опытом, если у кого таковой имеется?

З.Ы. Intel Core i5-3550, 8Гб RAM

Вопрос задан более трёх лет назад
274 просмотра

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Инженер по тестированию

5 месяцев

Далее
Thinknetica

Профессиональная разработка на Ruby on Rails

9 месяцев

Далее
Специалист.ру

Основы программирования и баз данных

1 месяц

Далее

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб.
- 75 просмотров
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб.
- 242 просмотра
2

ответа
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб.
- 180 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 190 просмотров
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт.
- 240 просмотров
4

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 325 просмотров
1

ответ
Базы данных

+2 ещё

Средний
Как автоматически откатить в CI/CD миграции при помощи Goose, если их было несколько?
- 3 подписчика
- 04 сент.
- 446 просмотров
1

ответ
SQL

+1 ещё

Простой
Какие таблицы для продуктов (и их вариантов) в БД использовать?
- 1 подписчик
- 02 сент.
- 218 просмотров
1

ответ
Базы данных

Простой
Как вы работаете с Milvus в контексте RAG-системы?
- 1 подписчик
- 25 июн.
- 95 просмотров
1

ответ
Node.js

+2 ещё

Простой
Как сделать регистрацию без слета через fs?
- 1 подписчик
- 03 июн.
- 168 просмотров
2

ответа
Показать ещё Загружается…

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Backend developer

Creative Code

До 160 000 ₽

Deep Learning Engineer (GigaChat Prod)

Сбер • Москва

от 350 000 ₽

Answer 1 · 2016-06-28 21:20:53

Быстро никак не получится

Готовое

sort \
--unique \
--parallel <threads count> -T /path/to/temp/dir/ /path/to/huge/file >>/out/file

Поставь на удаленной машине субд с ram 16gb
Сделайтам таблицу с уникальным полем
И долби своей машины вставками

Answer 2 · 2016-06-28 21:16:35

Сергей @begemot_sun

Программист в душе.

Используйте последовательный проход с фильтрацией с помощью фильтра Блума.

Ответ написан более трёх лет назад

2 комментария

Answer 3 · 2016-06-29 12:21:45

Хороший вопрос!
На третий взгляд, я бы поступил по следующему алгоритму.

Взял бы базу данных, ну например mysql.... Для хранения кешей и коллизий.
Итак, нам нужно пройтись по записям бигфайла, и сформировать новый бигфайл.
1) берем строчку файла, считаем от нее (или какой-то части), например sha1.
2) ищем по базе данных наш sha1
(таблица в "hashes" c полями "hash" и "offset", "count")
2.1) Если не нашли:

копируем текущую строку в новый файл
заносим наш sha1 и начало строки в базу (это нужно для коллизий)

2.2) Если нашли:

из базы забираем смещение начала строки
из старого файла вытягиваем всю строку по смещению и сравниваем
если строки равны, то переходим на п1) (можно еще и обновить count этой записи)
если строки не равны, у нас коллизия (!), обрабатываем ее

3) Обработка коллизии
(таблица в "collisions" c полями "hash" и "offset", "count")

берем из collisions все записи по нашему хешу
для каждой записи вынимаем строку из старого файла и сравниваем
если строки равны, то переходим на п1) (можно еще и обновить count этой записи)
если строки не равны, добавляем новую запись в таблицу collisions с новым смещением, текущюю строку пишем в новый файл

В принципе, этот процесс можно параллелить на бесконечное количество процессов. хотя, нужно бы еще над этим подумать.

PS. Можно еще дополнительное поле в каждой из таблиц сделать "count", обновлять его, если произошло сравнение записей, для статистики.

Как максимально быстро удалить дубли в большом (350Гб) файле?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт