Как устроить быстрое чтение рандомных участков в файле в 400 гб?

Question

ruboss @ruboss

Как устроить быстрое чтение рандомных участков в файле в 400 гб?

Нужно максимально быстро считывать с файла блоки байт заданного размера.

Я создал файл 400гб и записал в него 4 миллиарда записей по 100 байт.

Дальше пытаюсь рандомно доставать 100 байт из любого места файла.

SSD 400 gb, 56gb ram, linux ubuntu , ext4. Код минимальный на java.
Использовал RandomAccessFile класс. Но для seek он каждый раз делает его не от текущего места а от начала файла.

Результат - 1000 случайных чтений блоков по 100 байт за 7 секунд.

Как можно ускорить случайное чтение?

Вопрос задан более трёх лет назад
1261 просмотр

Комментировать

Подписаться 7 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Инженер по тестированию

8 месяцев

Далее
Яндекс Практикум

DevOps для эксплуатации и разработки

6 месяцев

Далее
Яндекс Практикум

Go-разработчик с нуля

8 месяцев

Далее

Решения вопроса 1

8 комментариев

ruboss @ruboss Автор вопроса

это виртуальная машина, не знаю какая разница что vps что vds, ресурсы по идее одинаковые, в чем разница кроме "держал в руках" ?

Написано более трёх лет назад
nirvimel @nirvimel

ruboss: Это не SSD и не HDD, это виртуальный диск виртуальной машины под гипервизором. Безусловно, виртуальный диск backended by физический(ие) диск(и), но эта связь чисто программная, характер этой связи определяется гипервизором, где-то добавлен кеш (не зависимо от O_SYNC O_DIRECT в гостевой системе), где-то добавлены лимиты iops (чтобы одна vm в каком-нибудь burning test не положила весь кластер), где-то один логический том (физический для гостевой ОС) разнесен между множеством физических, как в lvm, где-то куча логических от разных виртуалок лежат на одном физическом... и еще сотня разных вариантов.

Написано более трёх лет назад

ruboss @ruboss Автор вопроса

nirvimel: вот бенчмарки посмотрите:

root@vtt9:/mnt# dd if=/dev/zero of=./largefile bs=1M count=1024
1024+0 records in
1024+0 records out
1073741824 bytes (1.1 GB) copied, 0.731311 s, 1.5 GB/s
root@vtt9:/mnt#  sudo sh -c "sync && echo 3 > /proc/sys/vm/drop_caches"
root@vtt9:/mnt# dd if=./largefile of=/dev/null bs=4k
262144+0 records in
262144+0 records out
1073741824 bytes (1.1 GB) copied, 2.66522 s, 403 MB/s

как думаете, по скорости на много медленнее ssd?

Написано более трёх лет назад

nirvimel @nirvimel

ruboss: hdparm -t меряет линейную скорость чтения. В линейной скорости SSD не обязаны сильно превосходить HDD. Есть другая важная характеристика device access time (под этим понимается именно random access), вот она то у механических и немеханических дисков может различаться на 2 порядка.

Но вся эта физика (почти) не имеет смысла, когда разговор идет про виртуальные машины.

Написано более трёх лет назад
nirvimel @nirvimel

ruboss: dd - показывает тоже линейную скорость.
sync && echo 3 > /proc/sys/vm/drop_caches - под гипервизором имеет мало смысла.

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

nirvimel: т.е. вы считаете, что на настоящем ssd скорость выборки должна быть значительно быстрее чем на облаках мелкософта?

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

nirvimel: буду надеятся что так и есть =) а дальше разберусь, спасибо большое!

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

Взял реальный ссд, поставил, прошивка так себе и диск не самый лучший - получил 500 мсек

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 4

8 комментариев

ruboss @ruboss Автор вопроса

Спасибо, сменю, есть ещё идеи?)

Написано более трёх лет назад
Adamos @Adamos

Зачем сразу "сменить"? Для начала сесть и за полчаса написать тест, проверяющий скорость чтения того же файла на Сях.
Если разница критична - тогда уже задуматься, что не так в Джаве.

Написано более трёх лет назад
alexxandr @alexxandr

можно попробовать сменить используемый класс на FileReader, скорее всего он будет быстрее. Также потюнить GC не помешает

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

Adamos: спасибо, так и хотел

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

alexxandr: спасибо, проверю

Написано более трёх лет назад
lega @lega

Скорее всего, проблема не в языке, а в железе, поэтому можно писать хоть на "PHP"

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

lega: это сервер azure microsoft, странно что у них такие проблемы могут возникать, поделаю тесты на скорость зачит

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

Запилил то же самое на си/си++ - почему-то вышло еще медленнее - за 9 секунд...

Написано более трёх лет назад

2 комментария

4 комментария

ruboss @ruboss Автор вопроса

Всмысле 4 миллиарда блоков по 100 байт. Это хранилище, зная ключ я сразу достаю запись с нужного места. Key/value типа

Написано более трёх лет назад
Saboteur @saboteur_kiev Куратор тега Linux

ruboss: У вас взаимоисключающие параграфы. Что такое ключ?

С точки зрения random access к диску, вы должны считывать файл по его смещению, а не сперва искать ключ, затем по ключу искать value.

А у вас такое впечатление, что в файле еще хранится какой-то отдельный индекс ключей, по которым ваш запрос должен пробежаться, чтобы понять где хранится value для этого ключа. Если там 4 млрд записей (4 млрд ключей), то каждый запрос будет сперва эти 4 млрд записей считывать с самого начала, пока не найдет нужный ключ.

Написано более трёх лет назад
Adamos @Adamos

Сергей: ключ - это смещение в файле, всего лишь. Очевидно же.

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

Сергей: Adamos прав

Написано более трёх лет назад

3 комментария

ruboss @ruboss Автор вопроса

хм, особо не вникал, я думал есть разница в скорости перемеения т.е от начала файла до т. А - 1 гб , а от точки А до точки Б 1 мб, и перейти к чтению из т. Б будет гораздо быстрей чем из начала, это не так? про seek узнал docs.oracle.com/javase/7/docs/api/java/io/RandomAc...

Написано более трёх лет назад
АртемЪ @Jump

ruboss: Ну не совсем так, учитывая что у вас SSD.
Нет никакого перехода доступ ко всем блокам примерно одинаков по времени.
К тому же следует учитывать тот факт, что SSD хранит информацию не там куда указывает файловая система, у него свои принципы хранения.
Например если вы разобъете SSD на два логических диска и будете писать только в один - информация будет размазана по всему диску.

Написано более трёх лет назад
АртемЪ @Jump

А вообще чтобы повысить скорость есть мысли.
Как вы читаете? Одиночными чтениями, или формируете сразу кучу запросов?
Максимальная скорость будет при большой очереди.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Компьютерные сети

+4 ещё

Простой
Какие нужны навыки начинающему junior сис админу и каков его карьерный рост?
- 1 подписчик
- 38 минут назад
- 38 просмотров
0

ответов
Linux

+2 ещё

Средний
Wireguard, туннель — всё?
- 1 подписчик
- вчера
- 3554 просмотра
2

ответа
Java

+1 ещё

Простой
Лучшие практики реализации Java Delegate в Camunda: Spring Bean vs прямое создание класса?
- 1 подписчик
- вчера
- 55 просмотров
0

ответов
Железо

Простой
Почему у меня фризы в играх?
- 2 подписчика
- 20 окт.
- 445 просмотров
2

ответа
Железо

+2 ещё

Простой
Хватит ли мощности блока питания?
- 1 подписчик
- 18 окт.
- 241 просмотр
1

ответ
Железо

Средний
Запуск компьютера прекращается после запуска БИОС, что может быть?
- 1 подписчик
- 17 окт.
- 136 просмотров
2

ответа
Linux

+4 ещё

Простой
Возможно ли получить интернет с openwrt в proxmox?
- 1 подписчик
- 17 окт.
- 275 просмотров
4

ответа
Windows

+1 ещё

Средний
Какая может быть причина отключения ПК?
- 1 подписчик
- 17 окт.
- 214 просмотров
0

ответов
Linux

+2 ещё

Простой
Как настроить Matrix Synapse сервер, чтобы работал клиент Element X (Element подключается)?
- 1 подписчик
- 17 окт.
- 105 просмотров
1

ответ
Железо

Простой
Может ли клавиатура убить компьютер?
- 3 подписчика
- 16 окт.
- 522 просмотра
1

ответ
Показать ещё Загружается…

Системный администратор

ТЕЛЕРУС • Москва

от 150 000 до 250 000 ₽

Ведущий инженер-проектировщик линий электропередачи (ЛЭП)

ЭЛСИ Энергопроект • Новосибирск

от 121 000 ₽

Системный администратор Linux

Abc staff • Москва

До 250 000 ₽

Answer 1 · 2015-11-20 20:23:33

Автор должен был сразу указать, что речь идет не о физическом сервере, а о гипервизоре azure microsoft.
Это объясняет многое... Нет, это объясняет все!
И слово SSD будет лучше убрать, если вы этот "SSD" сами в руках не держали (и никто его в руках не держал, т.к. это просто виртуалка под гипервизором).

Answer 2 · 2015-11-20 15:18:01

alexxandr @alexxandr

you'll see in memory only 0xDEADFACE

Сменить язык на C

Ответ написан более трёх лет назад

8 комментариев

Answer 3 · 2015-11-20 15:54:45

Но для seek он каждый раз делает его не от текущего места а от начала файла

seek просто задает адрес и не делает io операций, поэтому это не влияет.

Скорее всего SSD тормозной, можете проверить его тулзами. Так же когда вы считываете всего 100 байт, с самого девайса считывается минимальный блок (4кб, 16кб, ...)

Answer 4 · 2015-11-20 15:08:31

"Я создал файл 400гб и записал в него 4 миллиарда записей по 100 байт. "

Не очень понятна эта фраза. У вас просто бинарный файл, или база данных?
Если просто бинарный файл, то что означает "записал в него 4 млрд записей"?

Answer 5 · 2015-11-20 18:10:51

Но для seek он каждый раз делает его не от текущего места а от начала файла

Почему вы так решил? На основании какой информации, и почему считаете должно быть по другому?

Как устроить быстрое чтение рандомных участков в файле в 400 гб?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт