Как эффективно и лаконично отсортировать файл из строк не вмещающихся в память?

Question

mkone112 @mkone112

Начинающий питонист.

Алгоритмы

Как эффективно и лаконично отсортировать файл из строк не вмещающихся в память?

На собесе попросили написать код, сортирующий файл размером 1tb, каждая строка - число размером 2гб. Ограничение памяти 500мб, время на решение ~10 минут.
Я не очень понимаю как такое решать, есть бы хотя бы несколько строк помещалось в память - я бы разбил файл на сортированные куски и слил бы их через merge sort. Учитывая что в память целиком не помещается даже одна строка - я бы итерировался по каждой по отдельности пока не наткнулся бы на разные разряды... Но все это обрывки идей которые никак не превращаются в реализованный алгоритм. Как может выглядеть алгоритм решающий задачу, который можно реализовать на собесе за отведенные 10 минут времени?

Вопрос задан более трёх лет назад
764 просмотра

7 комментариев

Подписаться 4 Простой 7 комментариев

mayton2019 @mayton2019

я бы разбил файл на сортированные куски и слил бы их через merge sort.

это - правильное решение. Так эта задача и решается. Учитывая что тут каждая строка больше памяти - то делаешь все операции на диске. Сравнение строк - сравнение файлов.

Написано более трёх лет назад
mkone112 @mkone112 Автор вопроса

mayton2019,

Учитывая что тут каждая строка больше памяти - то делаешь все операции на диске.

Мне кажется что 500мб памяти дано не просто так, думаю сортировать нужно в ней, а на диске только хранить промежуточные результаты.

Сравнение строк - сравнение файлов.

Не понял.

Написано более трёх лет назад
mayton2019 @mayton2019

mkone112, вот кусок задания

аждая строка - число размером 2гб. Ограничение памяти 500мб

здесь КМК неважно сколько там мегабайтов. Тот кто выдал задание хотел сказать что ожидает
streamable-подход к сортировке. Тоесть ничего в эти 500 мб вы не положите. Даже одна строка не влезет.
Поэтому вы и можете расчитывать только на поточные дисковые операции.

Написано более трёх лет назад
Alexandroppolus @Alexandroppolus

Чисел (элементов сортируемого массива) всего около 500?

Написано более трёх лет назад
Alexandroppolus @Alexandroppolus

сортировать надо в том же файле, или записать в новый? если в том же, то по факту сортировки надо будет продумать оптимальную стратегию для определения нового места для каждой строки. Некоторые могут остаться на своих местах

Написано более трёх лет назад
d'Ivan @2ord

За 1 минуту если есть мысли как реализовывать, то пытаешься уложиться во время. А если их нет, то нужно идти на ухищрения. Допустим, утилита sort в Linux.

Написано более трёх лет назад
mkone112 @mkone112 Автор вопроса

Román Mirilaczvili, ответ - рабочий код на питоне.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 2

5 комментариев

mayton2019 @mayton2019

Это - частный случай. Он базируется на предположении что первые 64Кб будут полезны для сортировки.
Но они могут полностью совпадать у всех 100% строк.

Написано более трёх лет назад
Adamos @Adamos

mayton2019, это как раз алгоритм, ищущий такие частные случаи до самого конца строки. Но постепенно - только в том случае, если это действительно нужно.

Написано более трёх лет назад
Alexandroppolus @Alexandroppolus

mayton2019, в худшем случае придется прочитать весь файл, от этого никуда не уйти

Написано более трёх лет назад
res2001 @res2001

Можно читать по 512 Кб каждого числа, в этом случае части всех чисел влезут в память. Для "автоматической" сортировки можно использовать двоичное дерево.

Написано более трёх лет назад
mayton2019 @mayton2019

Adamos, надо подумать. Может быть у нас будет несколько алгоритмов.

Написано более трёх лет назад

7 комментариев

Adamos @Adamos

По байту с диска? По сектору хотя бы.

Написано более трёх лет назад
Сергей Соколов @sergiks Куратор тега Алгоритмы

Adamos, утрировал для иллюстрации )
500 мб оперативки позволяют более крупные блоки, конечно.

Написано более трёх лет назад
Сергей Соколов @sergiks Куратор тега Алгоритмы

вообще, с фикс размерами чисел и их отн. небольшим числом, кажется, можно придумать какой-то более веселый способ сортировки. Всё с той же целью расставить индексы строк в нужном порядке.

В задаче нужно отобразить (map) длиннющие числа на 10-битные (0..512) в правильном порядке сортировки.

Написано более трёх лет назад
Сергей Соколов @sergiks Куратор тега Алгоритмы

mkone112
Что если эту «таблицу» из 500 чисел одинаковой длины читать вертикально — столбцами по килобайту.
Считали 500 первых Кб, отсортировали.
Далее надо считать по следующему Кб только у оставшихся в этом раунде равными.
Так до конца (до младших разрядов чисел) или пока не останется неоднозначностей.

В памяти одновременно не придётся держать тяжёлых данных.

Написано более трёх лет назад
Adamos @Adamos

Сергей Соколов, собственно, именно это я написал в своем ответе. Только не по килобайту, а по сектору все-таки, чтобы зря не гонять диск.

Написано более трёх лет назад
Akina @Akina

Adamos,
Только не по килобайту, а по сектору все-таки, чтобы зря не гонять диск.

Ну тут сработает буферизация и предчтение как ОС, так и самого диска и и его контроллера. Так что с учётом доступной памяти (полгектара) и количества сортируемых строк (полтыщи) блок чтения в зависимости от выбранного способа сортировки может быть 0.5 или 1 Мбайт.

Написано более трёх лет назад
mayton2019 @mayton2019

Напоминает radix сорт.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

10 комментариев

mkone112 @mkone112 Автор вопроса

Вопрос о реализации алгоритма, а не поиске подходящей тулзы.

Написано более трёх лет назад
garbagecollected @garbagecollected

mkone112, так у этой тулзы открытый исходный код. В чем проблемы то? Посоветовать генератор flowcharts чтоли?

Написано более трёх лет назад
mkone112 @mkone112 Автор вопроса

garbagecollected,
В чем проблемы то?

Слово "лаконично" в заголовке вопроса.

Написано более трёх лет назад
garbagecollected @garbagecollected

mkone112, ну я уже не знаю чем вам помочь. Просто два факта: тулза sort была написана в 1988г. Последний коммит в нее внесен в 2010г. Поддержка этой утилиты осуществляется 100% всеми существующими ОС. За 34 года исходный код тулзы переё*ан вдоль и поперёк. И за последние 12 лет в идеально отлаженный алгоритм никто не вносил изменения, так как он работал без нареканий у сотней миллионов пользователей. Вы реально мне хотите сказать что вы найдёте алгоритм лучше, лаконичнее?

Написано более трёх лет назад
Adamos @Adamos

garbagecollected, скорее всего, найдет. Потому что в утилите общего назначения, да еще на Сях прошлого века, как минимум будут заведомые "простыни" кода, куда более объемные и замороченные на деталях реализации, чем решение на современном Питоне, которого хотят от ТС.

Написано более трёх лет назад
d'Ivan @2ord

Adamos, это похоже на троллинг. Хотя, в любом случае, автора просят код на Питоне.

Написано более трёх лет назад
mkone112 @mkone112 Автор вопроса

garbagecollected, garbagecollected, я хочу сказать что он не лаконичен, и никогда таким не планировался, а лучше/хуже вообще относительные понятия.

Написано более трёх лет назад
d'Ivan @2ord

mkone112, если будет найдено решение по вопросу на Питоне, опубликуй, пожалуйста.

Написано более трёх лет назад
garbagecollected @garbagecollected

На python это невозможно. Нужен ЯП с так называемым raw memory management, у которых за выделение памяти отвечает условные calloc, malloc, realloc и free, а не какой-нибудь там GarbageCollector. Такими языками являются, например, Си (без плюсов) и Rust, и может быть, какие-то другие, которые я не знаю.

Написано более трёх лет назад
garbagecollected @garbagecollected
mkone112, все что от вас требовали написать на python за 10 минут:

import os cmd = 'sort -g -S500M -o /path/to/output.txt /path/to/input.txt' returned_value = os.system(cmd)

Вы просто провафлили задание
Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 301 просмотр
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 187 просмотров
1

ответ
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 226 просмотров
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 394 просмотра
1

ответ
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт. 2025
- 379 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт. 2025
- 269 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 237 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт. 2025
- 212 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт. 2025
- 370 просмотров
1

ответ
Алгоритмы

+1 ещё

Простой
Как отконвертировать 3D-меш в наклонные треугольники?
- 2 подписчика
- 02 окт. 2025
- 205 просмотров
1

ответ
Показать ещё Загружается…

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Программист (backend Python, Django middle +) - работа очно в офисе в г. Москва

Главгосэкспертиза России • Москва

от 250 000 до 350 000 ₽

я бы разбил файл на сортированные куски и слил бы их через merge sort.

это - правильное решение. Так эта задача и решается. Учитывая что тут каждая строка больше памяти - то делаешь все операции на диске. Сравнение строк - сравнение файлов.
mayton2019,

Учитывая что тут каждая строка больше памяти - то делаешь все операции на диске.

Мне кажется что 500мб памяти дано не просто так, думаю сортировать нужно в ней, а на диске только хранить промежуточные результаты.

Сравнение строк - сравнение файлов.

Не понял.
mkone112, вот кусок задания

аждая строка - число размером 2гб. Ограничение памяти 500мб

здесь КМК неважно сколько там мегабайтов. Тот кто выдал задание хотел сказать что ожидает
streamable-подход к сортировке. Тоесть ничего в эти 500 мб вы не положите. Даже одна строка не влезет.
Поэтому вы и можете расчитывать только на поточные дисковые операции.
Чисел (элементов сортируемого массива) всего около 500?
сортировать надо в том же файле, или записать в новый? если в том же, то по факту сортировки надо будет продумать оптимальную стратегию для определения нового места для каждой строки. Некоторые могут остаться на своих местах
За 1 минуту если есть мысли как реализовывать, то пытаешься уложиться во время. А если их нет, то нужно идти на ухищрения. Допустим, утилита sort в Linux.
Román Mirilaczvili, ответ - рабочий код на питоне.

Answer 1 · 2022-10-11 14:40:46

А зачем вам вся строка для сортировки?
Вам она нужна только до того байта, который не совпадет с другими строками.
Взять от каждой строки по 64Kб, отранжировать по отличиям в этой части, продолжить читать только у тех, у которых она совпадает. Повторять чтение кусков до прекращения совпадений.

Answer 2 · 2022-10-11 14:44:40

Отдельные мысли:
1 Tb / 2 Gb = 500 чисел, не много.

Сначала собрать массив индексов строк в отсортированном порядке.
После окончания сортировки записать финальный файл с реальными числами.

Merge Sort, да, хорош, потому что O(n log n)

Числа – фикс. размера, поэтому для сравнения двух очередных чисел, читать можно от старших регистров к младшим, до первого различия, которое может наступить уже в первых цифрах.
Считывать длинные числа можно маленькими блоками, да хоть по байту (нет), пока не наступит различие в пользу одного из двух.

Все 500 можно считывать маленькими шажками от старших регистров к младшим.
Считали 500 блоков (по килобайту?) – расставили в порядке.
Далее считываем следующие блоки только для тех из 500, что на предыдущем сравнении оказались равными.

И т.д. пока все равенства не разрешатся, или пока числа не кончатся )

Answer 3 · 2022-10-12 09:59:10

garbagecollected @garbagecollected

Если доступен bash

sort -g -S500M -o /path/to/output.txt /path/to/input.txt

Ответ написан более трёх лет назад

10 комментариев

Как эффективно и лаконично отсортировать файл из строк не вмещающихся в память?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт