Как оптимизировать алгоритм сортировки файла?

Question

esin @esin

Как оптимизировать алгоритм сортировки файла?

Всем доброго времени суток!
Выполнял недавно тестовое задание, в котором требовалось выполнить сортировку файла, размером 4 Гб, используя всего 512 Мб оперативной памяти. Язык — Java, время выполнения задания (НЕ время работы алгоритма) — 4 часа. В файле строки из трех столбцов, второй столбец — дата и время в формате ISO, по нему нужно сортировать.
Я сделал следующим образом: начинаем считывать из файла строки в ArrayList, пока не забьем память примерно на 250 Мб, после чего массив сортируем алгоритмом Merge Sort (выбрал его, т.к. у него хорошее время выполнения и уже имел с ним дело), и отсортированный массив записываем во временный файл. Потом продолжаем считывать строки из исходного файла, сортируя и сохраняя по этому же принципу. После считывания всего исходного файла используем тот же алгоритм слияния для сборки одного выходного файла, сохраняя промежуточные результаты в, опять же, промежуточных отсортированных файлах.
По результату задания мне сказали, что алгоритм не оптимален. Есть идеи, как оптимизировать его, но только незначительно (например, написать более шуструю операцию сравнения двух подстрок или еще что-то в этом духе). Но никаких глобальных способов оптимизации так и не придумал.
У кого есть идеи — подскажите пожалуйста.
Заранее спасибо!

Вопрос задан более трёх лет назад
5694 просмотра

Комментировать

Подписаться 9 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 8

1 комментарий

3 комментария

esin @esin Автор вопроса

Спасибо! Правда я пока не знаю, насколько дорогая операция считывания строки из файла, зная смещение относительно начала. Буду пробовать

Написано более трёх лет назад
ToSHiC @ToSHiC

В 4-10 раз медленнее, чем линейное чтение. С 1 сата винчестера можно получить до 80 мегабайт в секунду линейного чтения или около 10 мегабайт в секунду рандомного чтения. Скорее всего сортировать всё сразу будет быстрее.

Просто сделайте в своём алгоритме использование quicksort или timsort для сортировки в памяти.

Написано более трёх лет назад
Rowdy Ro @rowdyro

А кто вам гарантирует, что файл линейно будет лежать на диске?

Написано более трёх лет назад

1 комментарий

2 комментария

7 комментариев

esin @esin Автор вопроса

Это конечно прекрасно, но для того, чтобы забить топ 512 Мб (если учесть, что в 512 Мб порядка 40 млн строк), надо будет 40 млн. раз пробежаться по всему файлу

Написано более трёх лет назад
Dmitry @Neir0

Для того, чтобы забить топ 512 надо ОДИН раз пробежаться по всему файлу. Для 4гб всего 8 раз. Посчитай, какое количество операций ввода-вывода ты производишь в своем решение.

Написано более трёх лет назад
Dmitry @Neir0

Вообще есть же уже давно известные алгоритмы внешняя сортировка зачем велосипед изобретать.

Написано более трёх лет назад
esin @esin Автор вопроса

Не понимаю, как можно за один проход выбрать топ 40 миллионов строк. Какой алгоритм?
п.с. минусовал не я

Написано более трёх лет назад
esin @esin Автор вопроса

Мой способ сортировки полностью совпадает с принципом внешней сортировки:
«Идея большинства методов заключается в расчленении данных на ряд последовательностей помещающихся в оперативную память. Далее применяется один из методов внутренней сортировки, после чего последовательности сливаются…
Если же объём оперативной памяти мал, то можно разделить исходные данные на несколько последовательностей, после чего непосредственно использовать процедуру слияния.»

Написано более трёх лет назад
esin @esin Автор вопроса

Все, сообразил. Но ведь все равно каждый набор из этих 40 млн. строк нужно будет сортировать. Последующее слияние будет быстрее, да. Хотя и не факт, что алгоритм будет быстрее в целом.
Но все равно проверю, спасибо!

Написано более трёх лет назад
Dmitry @Neir0

Почему сортировать, не знаю как в яве, но в дотнете есть структура SortedList, она сохраняет элементы отсортированными. Можно какой-нибудь дерево использовать. Мы просто добавляем новые элементы и где-то храним значение минимального элемента, если считываемый элемент больше минимального, выкидываем минимальный, вставляем новый. Но в любом случае лучше использовать то, что уже было придумано до нас. Можно конечно и индекс заюзать, как рекомендовали выше, но мне кажется это решение натянутым ибо оно прокатывает на ленточке(если данных очень много он не влезет в память) + random access не самая быстрая операция.

Написано более трёх лет назад

1 комментарий

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

Средний
Я создаю сервер майнкрафт на forge с модами, но возникает проблема, с чем это может быть связано и как это решить?
- 3 подписчика
- 12 авг.
- 1981 просмотр
3

ответа
Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 162 просмотра
3

ответа
Java

Простой
Как скомпилировать Swing приложение с AOT?
- 1 подписчик
- 08 авг.
- 89 просмотров
1

ответ
Android

+1 ещё

Простой
Почему постоянно переходит только в первую группу?
- 1 подписчик
- 30 июл.
- 139 просмотров
1

ответ
Java

+1 ещё

Простой
Почему Java Flight Recorder в Spring Boot не пишет в файл?
- 1 подписчик
- 25 июл.
- 65 просмотров
0

ответов
Java

+2 ещё

Простой
Как поставить OpenGL 4.x чтобы он работал в Minecraft на macOS 15 (M1)?
- 1 подписчик
- 21 июл.
- 105 просмотров
0

ответов
Java

+1 ещё

Простой
Почему возникает deadlock?
- 1 подписчик
- 17 июл.
- 271 просмотр
1

ответ
Алгоритмы

+1 ещё

Средний
Как можно предиктить дату регистрации при массиве данных?
- 1 подписчик
- 03 июл.
- 149 просмотров
1

ответ
Программирование

+1 ещё

Простой
Как работает регистрация и аутентификация с помощью ЭЦП?
- 1 подписчик
- 26 июн.
- 277 просмотров
3

ответа
Java

+1 ещё

Простой
Mapstruct Mapper выдаёт NullPointerException Cannot invoke because Mapper is null. Как исправить ошибку?
- 1 подписчик
- 25 июн.
- 207 просмотров
1

ответ
Показать ещё Загружается…

Java-разработчик (Маркетинга AI)

Сбер • Москва

от 300 000 до 350 000 ₽

Java разработчик (продукт «Справочники»)

HFLabs

от 200 000 до 300 000 ₽

Java-разработчик

Wanted

До 400 000 ₽

Answer 1 · 2012-07-04 00:13:38

Я не специалист по сортировке, но если быстро перебрать исходный (первый) файл и сделать копию только из второго столбца и номера строки — больше данных влезет в память (это второй файл).
А по окончанию сортировки создать третий файл с результатами, выдергивая номера строк и з отсортированного второго файла, и забирая соответствующую строку из первого.

Answer 2 · 2012-07-04 00:34:40

Ну я бы сделал так.

Читать сроку, запоминать ее смещение от начала файла (int32), длину строки (int32), а время перевести в timestamp (int32) = ~12 байт на запись (+ оверхед явовских контейнеров)
Сортировать все скопом по timestamp в один контейнер.

И бежать по индексу выкусывая из исходного файла сроки по смещению и длине, добавляя их в новый.

В 512 Мб влезет ~44 млн. срок. (без учета оверхеда контейнеров)

Answer 3 · 2012-07-05 09:20:05

А какого рода строки в файле? Может, их можно хранить в памяти компактней. Например, дату/время можно точно уместить в один long, см. Date.getTime(). Может, и с остальными столбцами так можно?

Answer 4 · 2012-07-04 01:05:40

А чем вас не устроили классические алгоритмы сортировки последовательностей (см. Д. Кнут, т. 3)? Вполне себе классический случай. Ключевые слова «однофазная»/«многофазная» «однопутевая», «двухпутевая», «турнирная» сортировка.

В качестве экзотики можно сделать вариант с комбинированной сортировкой (чтение блоков, частичная сортировка, смешивание, например как здесь). Но работать будет долго.
Если есть опасение, что одна строка не влезет в ограничение по памяти — стройте индекс и сортируйте его.

Answer 5 · 2012-07-04 07:58:55

Я не до конца понял ваше решение, но если тупо взять, пройтись по файлу и отобрать топ(512мб), записать в файл. Далее опять пройтись, отобрав топ(512мб) но уже начиная от нижней границы предыдущего топа. Всего 8 проходов.

Answer 6 · 2012-07-04 12:23:02

1. Сортировать данные по индексу и второму столбцу
2. MergeSort использует в 2 раза больше оперативной памяти, нежели действительно требуется. В оперативной лучше сортировать по QuickSort (сортировка по умолчанию Arrays.sort()), тогда можно сортировать в 2 раза больше данных.
3. Так как дата представляется целым числом, можно использовать поразрядную сортировку (которая производит несколько сортировок подсчетом). Она еще быстрее. То есть, если дата представляется числом < 10^18, то сортировку можно произвести всего лишь тремя сортировками подсчетом (по разряду 10^6), которые выполняются за линейное время
4. ArrayList работает долго. Используйте массив
5. Не понял, как именно вы сливаете файлы. Их надо сливать по аналогии с MergeSort. То есть не последовательно, а также логарифмически

Answer 7 · 2012-07-04 00:38:14

ещё нужно рассмотреть ситуацию, когда в файле находятся всего 3 строки, каждая размером по 650МБ. вы не сможете прочитать ни одну строку целиком, и нужно делать так, как говорит rowdyro

Answer 8 · 2012-07-04 00:53:37

max7 M7 @max7

max7

Не сочтите за пошлость ;-)
Но я бы перегнал бы файл в sqlite.
А дальше с этим можно делать всё что угодно.

Ответ написан более трёх лет назад

1 комментарий

Как оптимизировать алгоритм сортировки файла?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт