Какой самый быстрый способ прочитать/записать из большого файла?

Question

Den4_x @Den4xCode

Coder

Какой самый быстрый способ прочитать/записать из большого файла?

Есть текстовый файл input.txt, количество строк до 10^5, размер строки 2 и 3 может достигать 10^9 различных эл-ов. остальные строки могут повторятся между собой и их размер 5 эл-ов.

Я использую следующий код:

static String[] getStrings(String fileName) throws Exception {

        BufferedReader bufferedReader = new BufferedReader(new FileReader(fileName));
        StringBuilder stringBuilder = new StringBuilder();

        String line;
        while ((line = bufferedReader.readLine()) != null) {
            stringBuilder.append(line).append("\n");
        }

//плохая строчка, создает для каждого эл-та строковый объект в куче.
        String[] all_lines = stringBuilder.toString().split("\n");

        bufferedReader.close();

        return all_lines;

    }

Также использовал split() для 2 и 3 строки, что супер не хорошо, ведь при таком коде у меня для млрд элементов в куче создавалось млрд строковых объектов, а это гг для производительности программы.

Наверное нужно использовать byteBuffer, но у меня уже каша в голове, так как сёрфил инет в поисках лучшего решения и слишком много различных выборов на которых нет времени тестировать, если не сложно подскажите решение лучшее на ваш взгляд, буду очень признателен.

Основная задача: максимально быстро прочитать с файла, для 2 и 3 строки нужно интерпретировать как числа, чтобы я мог в дальнейшем обращаться к ним через стек, а не через строки, максимально быстро записать в файл ответ программы.

2 и 3 строки вида: "1 2 33 4 107 11 1000 1007" и т.д. до 10^9 эл-ов.

P.S.:
Вроде бы быстрейший способ это чтение через off-heap метод, а запись через directBuffer, но у меня мало опыта в этом и не уверен что это подходит к конкретно к этой задачи.

Вопрос задан более двух лет назад
647 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Java-разработчик с нуля

12 месяцев

Далее
Академия Эдюсон

Java-разработчик + ИИ

8 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

3 комментария

Den4_x @Den4xCode Автор вопроса

https://www.javacodegeeks.com/2013/08/which-memory... здесь утверждают что нативная память топ 1 для чтения из файла.

Но мою программу замедляет не совсем reader, а то что я использую метод split(), он создает мне 1 млрд объектов в строковом пуле от чего у меня производительность сильно страдает. Как мне считать файл таким образом, чтобы я мог работать с 2 и 3 строками, не как со строками типа String, а как с массивами типа int[ ] без создания строковых объектов в куче? а остальные строки чтобы были типа String они меня не сильно беспокоят, так как они повторяются и их намного меньше по кл-ву эл-ов.

Написано более двух лет назад
Алексей 〒. @axifive

Den4_x, Наверно тебе больше подойдёт RandomAccessFile.
Получишь больший контроль при работе с байтами.

Написано более двух лет назад
Сергей Горностаев @sergey-gornostaev Куратор тега Java

Den4_x, там только врезке можно верить.

Написано более двух лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

Простой
Почему не запускается Flyway?
- 1 подписчик
- 12 мая
- 192 просмотра
2

ответа
Java

Простой
Можно ли сделать «псевдоним» для пакета?
- 3 подписчика
- 06 мая
- 242 просмотра
1

ответ
Java

Простой
Возможно ли добавлять методы в пакет чужой библиотеки?
- 1 подписчик
- 05 мая
- 193 просмотра
2

ответа
Java

+2 ещё

Сложный
Как гарантировано закрыть сокет через ServerSocket?
- 2 подписчика
- 30 апр.
- 182 просмотра
1

ответ
Java

Средний
Как получать ввод с конкретной клавиатуры и мышки, если их несколько?
- 2 подписчика
- 29 апр.
- 163 просмотра
1

ответ
Java

Простой
Как переделать этот SQL запрос на java?
- 1 подписчик
- 13 мар.
- 345 просмотров
1

ответ
Java

+1 ещё

Простой
Почему не запускается собранный в .jar файл Java FX проект?
- 1 подписчик
- 26 февр.
- 225 просмотров
2

ответа
Android

+2 ещё

Простой
Как исправить ошибку при установке плагина AppMetrica в Android Studio?
- 1 подписчик
- 18 янв.
- 226 просмотров
1

ответ
Телефония

+2 ещё

Средний
Как реализовать инициализацию звонка через Телфин?
- 1 подписчик
- 16 янв.
- 93 просмотра
1

ответ
MySQL

+2 ещё

Средний
Как определить, необходимую версию tomcat и mysql?
- 1 подписчик
- 07 янв.
- 225 просмотров
1

ответ
Показать ещё Загружается…

Какой размер файла? - Есть разные варианты... BufferedReader по умолчанию 10Мб, но его можно увеличить до ~1Gb (впрочем, как и byteBuffer). Дальнейшая скорость работы программы, зависит от вашего ПК и ваших методов... При переборе по строкам, увеличение размера буфера не даст никаких результатов.

Метод readAllBytes() может загружать в память файлы до ~ 50Мб за секунду. А если искать в потоке, через stream, то такими порциями можно достаточно быстро перебрать и миллиарды. А если уж совсем быстро надо, то можно сделать таблицу индексов.

Answer 1 · 2023-09-20 13:53:40

Быстрота вне контекста смысла не имеет. Сам по себе вызов FileReader.readLine() достаточно быстрый, чтобы упираться в скорость передачи данных диска. Если вам не хватает скорости, то надо профилировать код, искать узкие места и оптимизировать их. Если узких мест нет, всё работает на пределе возможностей, то придётся смотреть в сторону распределённой обработки данных.

P.S. Обращение к нативной памяти не быстрее, чем к куче, а вот выделяется она на много медленнее, так что в общем случае direct buffer вам не поможет. Если проблема со скоростью только в аллокациях и от них можно отказаться,, например при сквозной передаче считанного с диска в сеть, то стоит использовать канал и zero copy через DMA.

Answer 2 · 2024-10-12 05:02:46

Не джавист, но в цикле можно сразу добавлять строку в массив, а не в стрингбилдер, тогда и сплит не понадобится. Если же имелось ввиду, что все строки будут обрабатываться как единая String, то было бы лучше получать строку с интами из общей String с помощью метода выделения подстроки какого-нибудь, для этого надо будет запомнить длины соответствующих строк, чтобы найти индексы начала и конца 2х подстрок.
P.S. Прочитал задачу, тут можно еще проще сделать:

intString0 = bufferedReader.readLine();
intString1 = bufferedReader.readLine();
intString2 = bufferedReader.readLine();
int Q = SomeAnalyzer(intString0);
String[] hands;
int i = 0;
while (i < Q) {
    hands.SomeAppendMethod(bufferedReader.readLine());
    i += 1;
}

Еще проще было бы читать из потока ввода сразу в переменные M, N, Q и т.д. Но, видимо, у автора была причина так не делать.
Надеюсь, кому-то будет полезно, кто решает такие задачи.

Какой самый быстрый способ прочитать/записать из большого файла?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт