@tibitibidoh

Какие HDD оптимально взять для исследовательского проекта?

Друзья, кто хорошо ориентируется в железе, подскажите, пожалуйста, какие hdd желательно брать под хранение большого количества данных?

Для понимания задачи поясню, что хочу в качестве научного эксперимента с целью последующего анализа скраулить большое количество (М+) сайтов, для этого нужно запастись жесткими дисками, на первое время думаю 100ТБ должно хватить, дальше можно докупить...

Соответственно хотелось бы услышать советы профессионалов ответы на такие вопросы:
1) Какие марки/модели сейчас наиболее надежные (WD/Toshiba/Seagate)?
2) С точки зрения экономии финансов какой объем на сегодняшний день оптимально брать?
3) Есть ли особенности хранения большого количества мелких файлов (хтмл-файлы, имейджи к ним)?

Всем спасибо за ответы!
  • Вопрос задан
  • 303 просмотра
Пригласить эксперта
Ответы на вопрос 4
opium
@opium
Просто люблю качественно работать
брать выгоднее всего 4 ТБ диски, самые дешевые
про надежность читать блог бекблейза
https://www.backblaze.com/blog/
Ответ написан
Комментировать
Jump
@Jump
Системный администратор со стажем.
Вы издеваетесь? Или просто тролль?
Как можно задавать такие вопросы на форуме? Собирайте команду профессионалов, и анализируйте.

Вам же не компьютер собрать надо, вам надо крупный датацентр построить. Может вам еще подсказать сколько бетона надо будет на этот датацентр?

100петабайт, это примерно 51000дисков. Т.е потребление энергии будет около 400киловатт.
И по деньгам это проект тянет более чем на миллиард рублей.
А вы вопросы на форуме задаете.
Ответ написан
@pbt39
Так и хочется написать ...Продам датацентр, недорого.....

давайте считать, www.raid-calculator.com
берем 6 раз по 8 дисков емкостью 3Тб, собирам из них большой ZFS pool (чтобы zfs себя хорошо вела, ей надо оставлять свободное место, берем 7 раз по 8 дисков)
т.к. скорость записи будет не очень большой, думаю хватит аналога raid6, позволит и данные не потерять и во время ребилда спать спокойно и накладные расходы не столь велики как на зеркала....
результат должен быть примерно такой

gal.redsquirrel.me/images/house_projects/server_ro...

и не следует класть миллионы файлов в одну директорию....
Ответ написан
Комментировать
@postgree
1) Какие марки/модели сейчас наиболее надежные (WD/Toshiba/Seagate)?

Тошиба подешевле и хитачи (ультрастар) подороже.
2) С точки зрения экономии финансов какой объем на сегодняшний день оптимально брать?
Если просто самые эффективные по соотношению объем/цена то 4Tb
3) Есть ли особенности хранения большого количества мелких файлов (хтмл-файлы, имейджи к ним)?
Насколько мелкие? Как вы будете объединять дисковое пространство? Фактически тут играет размер получаемого после объединения блока. Чем больше блок, тем больше производительность на больших файлах, и тем больше оверхед по дисковому пространству на мелких файлах.
Я у себя считал оверхед на тестовой выборке файлов из таблички метаданных:
SELECT (sum(ceil(f.size_/:block_size))*:block_size)/ sum(f.size_) AS koef FROM files f

и на моих данных уменьшать размер блока меньше 16384 не имело смысла, т.к. разница в пару процентов не принципиальна.
и не следует класть миллионы файлов в одну директорию....

Вы будете держать файлы в фс, бд или свои велосипеды?
Файлы раскладывал по директориям по алгоритму /file_dir/{md5h::substr(0,2)}/{md5h::substr(2,2)}/sha256h
Хеши нужно было просчитывать по задаче, так что не особо напрягался за экологию.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы