Новый HDD уходит в read-only под нагрузкой сайтов, что делать?

Question

Макс @wtfowned

Новый HDD уходит в read-only под нагрузкой сайтов, что делать?

Добрый день!

40 дней назад взял сервер на с процессором Ryzen и дисками 2x500 SSD (sda+sdb) + 1x4TB HDD (sdc), сервер зависал раз в 12 часов. После переписки с суппортом выяснилось что проблема в HDD и диск заменили на новый (как они сказали).

Прошло 40 дней, на сервере появилась небольшая нагрузка, и вот уже 2ой день подряд вебсервер перестает работать после того как HDD на котором лежат файлы сайта (базы, и сама система - на SSD). Все это совпало с почти минимальной нагрузкой, до этого ее не было почти совсем

Вдобавок ко всему, при попытке записать файл кэша на диск Апач создает до 100 процессов которые подвисают, и как результат вебсервер вообще перестает работать на обработку запросов, процессы апача просто висят. Решил временно перезагрузкой раз в 5 минут апача.

Вчера я сделал fsck -f -y /dev/sdc
Проверка прошла довольно быстро, после чего перезагрузил сервер полностью и диск стал опять RW.
Вот данные /var/log/syslog
pastebin.com/PtFjWpzk

Сегодня сделал тоже, проверка шла дольше и ошибок больше, решил запустить SMART - жду пока отработает проверка, вот скрин до проверки текущей.

Спустя пол часа работы сервера после перезагрузки уже появилось 96 Bad Sectors, до этого было и 200... :

Контент на диске - 2 ТБ из 4 ТБ , 1ТБ - архивы и дампы , 1 ТБ - файлы по большей части мелкие (файлы кеша html страниц, картинки). Проверял iostat - утилизация была на уровне 5-10%, не больше, это уже когда диск только в Read Only.

Вот как выглядит нагрузка после перезагрузки и диск в RW находится, до того как опять посыпались ошибки.

Вопросы:
1. Отчего может уходить диск в Read-only и связано ли это с нагрузкой?
2. Может ли за месяц придти диск в негодность и какие "вредные советы" для этого?
3. Что делать дальше?

Лог syslog / dmesg pastebin.com/PtFjWpzk
Лог fsck pastebin.com/eSqeuFJc

Вопрос задан более трёх лет назад
479 просмотров

2 комментария

Подписаться 1 Средний 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Специалист по информационной безопасности + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Инженер по информационной безопасности

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

2 комментария

7 комментариев

Макс @wtfowned Автор вопроса

Добавил скрин

Разве диск не должен просто увеличивать время отклика под нагрузкой? Здесь же у него появляются Bad Sectors раз в пол часа, и переходит в Read Only, полны логи ошибок.

Почитал на паре форумов, проблема не такая уж и редкая, чего только не советуют - от хардвар проблем вроде замены шлейфов и проверки диска SMART (в моем случае хард новый), до софтварных вроде драйвера диска и его прошивок, совместимости контроллера с Hdd определенных производителей...При этом ничего из вышеперечисленного так и не помогло экспериментаторам.

Решений или рабочих вариантов которые бы помогли не видел.

Написано более трёх лет назад
Zettabyte @Zettabyte

wtfowned,
от хардвар проблем вроде замены шлейфов

Т.е. шлейф, качество самого питания и его подачи, а также его общую достаточность для сервера вы проверили?

Написано более трёх лет назад
АртемЪ @Jump

wtfowned,
Разве диск не должен просто увеличивать время отклика под нагрузкой?
Должен.
Здесь же у него появляются Bad Sectors раз в пол часа
С чего вы взяли это? Я может конечно где-то что-то упустил, но в приведенных вами скриншотах этого не видно.
и переходит в Read Only
То же самое.
полны логи ошибок.
Да ошибки файловой системы есть.

от хардвар проблем вроде замены шлейфов
Не видно проблем со шлейфом.
и проверки диска SMART (в моем случае хард новый)
Какая разница новый он или старый???

Написано более трёх лет назад
Макс @wtfowned Автор вопроса

Zettabyte, нет, это распространенная проблема? Недостаточность питания и плохой шлейф...серверу только 1.5 года с момента сборки, а диску 40 дней, сомнительно что там могло резко что то ухудшиться.

Пока занимаюсь выкачиванием архивов, после этого напишу в техподдержку, сейчас их опасаюсь: в прошлый раз сказали что диск умер и "подтвердите утерю всех данных".

Написано более трёх лет назад
Макс @wtfowned Автор вопроса

АртемЪ,
С чего вы взяли это? Я может конечно где-то что-то упустил, но в приведенных вами скриншотах этого не видно.

Вставил скрин в стартпост. Пока обновлял пост с добавлением, за 10 минут появилось еще 10 bad sectors.

У меня подозрения что ошибки появляются из за большого количества рандомных запросов на чтение-запись маленьких файлов по 30кб, коих больше миллиона (кэши HTML страниц сайтов). Планирую перенести часть из них на SSD диск и посмотреть как пойдет, но это костыли какие-то, хочется конечно понять что с диском происходит.

Написано более трёх лет назад
АртемЪ @Jump

wtfowned,
У меня подозрения что ошибки появляются из за большого количества рандомных запросов на чтение-запись маленьких файлов по 30кб, коих больше миллиона
А чего они на HDD делают вот эти самые файлы??
Их вообще то на SSD размещают.

Это базы данных и систему можно хранить на медленном диске, но никак не мелкие файлы которые постоянно меняются.

Написано более трёх лет назад
Макс @wtfowned Автор вопроса

АртемЪ, я не специалист и не знал. Но разве при этом диск должен уходить в Read-only? Опять же - я думал он просто должен тупить и все, максимум. А тут получается без объявления войны он сыпется и все, при этом utilisation на уровне 40% в пиках (хотя в момент перехода в read-only может и больше).

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+2 ещё

Сложный
Восстановление таблицы разделов?
- 3 подписчика
- 15 мая
- 296 просмотров
2

ответа
Linux

+3 ещё

Средний
Radxa debian почему не работает тачскрин?
- 1 подписчик
- 13 мая
- 139 просмотров
2

ответа
Linux

+2 ещё

Простой
Метка тома системного раздела Linux?
- 1 подписчик
- 13 мая
- 176 просмотров
3

ответа
Linux

+1 ещё

Простой
Звуковые эффекты Realtek audio driver в Linux?
- 1 подписчик
- 12 мая
- 140 просмотров
3

ответа
Linux

+1 ещё

Простой
Почему переодически появляется сообщение в браузере « Прокси-сервер отказывается принимать соединения»?
- 1 подписчик
- 01 мая
- 279 просмотров
2

ответа
Linux

+3 ещё

Средний
Каскадный VPN Vless+Realty — почему отваливается SSH?
- 3 подписчика
- 29 апр.
- 2197 просмотров
1

ответ
Linux

+1 ещё

Средний
Как запретить пользователю авторизацию через одноименного системного пользователя?
- 4 подписчика
- 29 апр.
- 649 просмотров
1

ответ
Жёсткие диски

Средний
Стоит ли брать жесткий диск по уценке по причине сколов?
- 1 подписчик
- 21 апр.
- 419 просмотров
2

ответа
Linux

+1 ещё

Средний
Как добавить в cryptsetup поддержку опции tpm-with-pin в ubuntu 24.04.4?
- 1 подписчик
- 19 апр.
- 142 просмотра
1

ответ
Linux

Средний
Как отладить зависание RK3568 U-boot на Starting kernel?
- 2 подписчика
- 16 апр.
- 128 просмотров
0

ответов
Показать ещё Загружается…

уже 2ой день подряд вебсервер перестает работать после того как HDD на котором лежат файлы сайта (базы, и сама система - на SSD).

После того как ... что?
взял сервер на с процессором

типа шутка
Алёна?! Это Яна!
Я не Алёна и я не знаю никакой Яны.
Я не Яна, это я, на, так разговариваю, на!

JBD2

Диски объединены в JBOD?
для начала было бы не плохо указать модель дисков используемых в сервере.

Answer 1 · 2018-09-27 10:03:16

Видимо диск опять умирает, если он в начале был хороший то есть вероятность что ваши проблемы с диском связаны либо с шлейфом либо с контроллером либо с питанием

Answer 2 · 2018-09-25 23:31:16

# fsck -f -y /dev/sdc
...
Warning! /dev/sdc is mounted.
...

Не нужно чекать примонтированный диск, лучше ему от этого не станет.
Если приспичило почекать -- сначала отмонтируй.

Answer 3 · 2018-09-25 23:59:27

Все эти графики ничего полезного не говорят.
Очередь диска надо смотреть.
iostat
atop
С большой вероятностью он просто не справляется с нагрузкой.

Новый HDD уходит в read-only под нагрузкой сайтов, что делать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт