Какие задачи из Data Science упираются в скорость даже самых топовых SSD?
Приведите, пожалуйста, примеры задач, которые упираются в скорость SSD (даже топовых m.2), а не в CPU, GPU или RAM.
Речь не про распределённые системы и сервера, а про отдельный рабочий ПК DS-а.
ИМХО. Чтобы задача во что то "упиралась" - у нее должно быть ограничение по времени. Если у нас время на работу системы не ограничено - то никто никуда не упирается.
Иван Мельников, Ну так любой алгоритм будет упираться в SSD, если SSD - самый медленный компонент в железе. Пусть и топовый. Тут же вопрос именно относительности.
Ну понятное дело что алгоритм должен для этого хоть как то юзать SSD)))
Нужно быть очень злым буратиной чтобы целенаправленно загружать диск.
Любой тест дисковой поверхности загружает его на 100%. Или любое копирование
файлов в /dev/null делает тоже безсмысленную и безпощадную нагрузку.
Твои дата-сайенс задачи просто должны не доходить до такого. И в большинстве
случаев они и не дойдут. Потому что информацию с диска надо не просто читать
но еще и процессить. Обучать какую-то нейросетку.
Если ты все таки где-то умудрился такое сделать, то это - не промышленная задача.
Это что-то маргинальное и оно скорее всего не интересно к обсуждению.
Дурное дело - не хитрое.
Если на диске данные у тебя лежат в подгтовленном виде, т.е., например, полность готовые запикленные тензоры для кераса, то скорость работы запросто упрется в производительность диска или скорость передачи данных между диском/процом/памятью. Правда, это ситуация редкая и вообще никак не связана с прикладной задачей, определяется просто способом работы с данными.