DRBD — низкая производительность на запись?

Question

Aecktann @Aecktann

DRBD — низкая производительность на запись?

Здравствуйте.

Имею следующий конфиг:

2 x IBM x3630, по 14 2Tb SATA-дисков в каждом, на каждом собран raid10 из 12 дисков, 2 в hot-spare.

Гигабитный линк между серверами.

DRBD поверх устройств raid10 (md-raid).

Производительность /dev/md127:

throughput ~ 900 MB/s

fio со следующим конфигом:
Конфиг fio

[readtest]
blocksize=4k
filename=/dev/md/raid10
rw=randread
direct=1
buffered=0
ioengine=libaio
iodepth=16

выдает примерно такие цифры:
Вывод fio

readtest: (groupid=0, jobs=1): err= 0: pid=5009
  read : io=38632KB, bw=3502.5KB/s, iops=875 , runt= 11030msec
    slat (usec): min=4 , max=135 , avg=15.63, stdev= 4.91
    clat (msec): min=1 , max=149 , avg=18.19, stdev=12.39
     lat (msec): min=2 , max=149 , avg=18.21, stdev=12.39
    bw (KB/s) : min=    0, max= 3736, per=61.09%, avg=2139.33, stdev=1733.77
  cpu          : usr=1.16%, sys=2.03%, ctx=9085, majf=0, minf=36
  IO depths    : 1=0.1%, 2=0.1%, 4=0.1%, 8=0.1%, 16=99.8%, 32=0.0%, &gt;=64=0.0%
     submit    : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.0%, &gt;=64=0.0%
     complete  : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.1%, 32=0.0%, 64=0.0%, &gt;=64=0.0%
     issued r/w/d: total=9658/0/0, short=0/0/0

     lat (msec): 2=0.01%, 4=0.38%, 10=21.22%, 20=49.09%, 50=26.52%
     lat (msec): 100=2.63%, 250=0.16%

875 иопсов при задержке в 18 мс. Меня устраивают такие цифры, всё хорошо.

fio на запись — аналогично.
Конфиг fio

[writetest]
blocksize=4k
filename=/dev/md/raid10
rw=randwrite
direct=1
buffered=0
ioengine=libaio
iodepth=16

Вывод fio

writetest: (groupid=0, jobs=1): err= 0: pid=5023
  write: io=169624KB, bw=3912.7KB/s, iops=978 , runt= 43353msec
    slat (usec): min=2 , max=20841 , avg=10.85, stdev=101.29
    clat (usec): min=15 , max=169027 , avg=16321.19, stdev=33566.14
     lat (usec): min=267 , max=169040 , avg=16332.46, stdev=33566.13
    bw (KB/s) : min= 2936, max= 7334, per=100.26%, avg=3922.26, stdev=526.96
  cpu          : usr=1.02%, sys=1.50%, ctx=40727, majf=0, minf=18
  IO depths    : 1=0.1%, 2=0.1%, 4=0.1%, 8=0.1%, 16=100.0%, 32=0.0%, &gt;=64=0.0%
     submit    : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.0%, &gt;=64=0.0%
     complete  : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.1%, 32=0.0%, 64=0.0%, &gt;=64=0.0%
     issued r/w/d: total=0/42406/0, short=0/0/0
     lat (usec): 20=0.01%, 250=0.01%, 500=33.40%, 750=9.47%, 1000=5.28%
     lat (msec): 2=18.85%, 4=13.12%, 10=1.09%, 20=0.87%, 50=1.70%
     lat (msec): 100=12.06%, 250=4.15%

978 iops при задержке до 17 мс. Тоже прекрасно.

Далее начинается самое интересное.

Создаю drbd-устройство со следующим конфигом:

resource r0 {
	device     /dev/drbd0;
	disk       /dev/md/raid10;
	meta-disk  internal;
	on storage00 {
		address 192.168.254.10:7789;
	}
	on storage01 {
		address 192.168.254.11:7789;
	}
	net {
		max-buffers 8000;
		max-epoch-size 8000;
	}
}

И получаю нечто, не поддающееся обработке разумом, а именно:

Throughput на чтение почти не деградирует (чего и следовало ожидать, чтение идёт с локальной ноды).

Throughput на запись фиксируется ровно на 60 МБ/с. Маловато, от гигабита я ожидал 110 МБ/с, тем более, что initial sync drbd-устройства происходил как раз на скорости 110 МБ/с.

Снова fio при StandAlone-устройстве. Чтение:
Конфиг fio

[readtest]
blocksize=4k
filename=/dev/drbd0
rw=randread
direct=1
buffered=0
ioengine=libaio
iodepth=16

Вывод fio

readtest: (groupid=0, jobs=1): err= 0: pid=5214
  read : io=154380KB, bw=3500.5KB/s, iops=875 , runt= 44103msec
    slat (usec): min=5 , max=417 , avg=17.87, stdev= 5.28
    clat (msec): min=1 , max=209 , avg=18.25, stdev=12.51
     lat (msec): min=1 , max=209 , avg=18.27, stdev=12.51
    bw (KB/s) : min= 3048, max= 3840, per=100.16%, avg=3505.55, stdev=113.92
  cpu          : usr=1.02%, sys=2.17%, ctx=36213, majf=0, minf=37
  IO depths    : 1=0.1%, 2=0.1%, 4=0.1%, 8=0.1%, 16=100.0%, 32=0.0%, &gt;=64=0.0%
     submit    : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.0%, &gt;=64=0.0%
     complete  : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.1%, 32=0.0%, 64=0.0%, &gt;=64=0.0%
     issued r/w/d: total=38595/0/0, short=0/0/0

     lat (msec): 2=0.01%, 4=0.47%, 10=21.24%, 20=48.90%, 50=26.46%
     lat (msec): 100=2.79%, 250=0.13%

Запись:
Конфиг fio

[readtest]
blocksize=4k
filename=/dev/drbd0
rw=randread
direct=1
buffered=0
ioengine=libaio
iodepth=16

Вывод fio

writetest: (groupid=0, jobs=1): err= 0: pid=5229
  write: io=2396.0KB, bw=109341 B/s, iops=26 , runt= 22439msec
    slat (msec): min=8 , max=67 , avg=37.40, stdev= 9.43
    clat (usec): min=440 , max=741029 , avg=553594.77, stdev=83784.27
     lat (msec): min=40 , max=783 , avg=590.99, stdev=86.72
    bw (KB/s) : min=    6, max=  131, per=98.23%, avg=104.12, stdev=19.29
  cpu          : usr=0.30%, sys=0.11%, ctx=601, majf=0, minf=20
  IO depths    : 1=0.2%, 2=0.3%, 4=0.7%, 8=1.3%, 16=97.5%, 32=0.0%, &gt;=64=0.0%
     submit    : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.0%, &gt;=64=0.0%
     complete  : 0=0.0%, 4=99.8%, 8=0.0%, 16=0.2%, 32=0.0%, 64=0.0%, &gt;=64=0.0%
     issued r/w/d: total=0/599/0, short=0/0/0
     lat (usec): 500=0.17%
     lat (msec): 50=0.17%, 100=0.17%, 250=0.83%, 500=14.36%, 750=84.31%

Чтение не деградировало или почти не деградировало. Запись деградировала во много раз (напоминаю, drbd находится в StandAlone-режиме)

Кроме того, присутствует страшная задержка на slat — больше 37 мс только на обработку io-запроса дисковым стеком.

Что я делаю не так с drbd? Это же ненормальное поведение, когда просто еще один слой (drbd over md) рубит производительность в сорок раз?

DRBD 8.3, ядро 3.5.0-27-generic, система Ubuntu 12.04 LTS. Планировщик io — cfq.

Помогите?

Вопрос задан более трёх лет назад
5050 просмотров

2 комментария

Подписаться 6 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Учебный центр IBS

AL-1802 Администрирование Astra Linux Special Edition 1.8

2 недели

Далее
Skillbox

Linux для робототехников

3 месяца

Далее
Слёрм

Linux для разработчиков

2 недели

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

1 комментарий

5 комментариев

Aecktann @Aecktann Автор вопроса

Да, это софт-рейд,

Написано более трёх лет назад
giner @giner

На софт рейде нужно проводить дополнительную оптимизацию, например, пробовать выносить метаданные, т.к. нет кэша на запись. Но вообще использовать DRBD поверх софтрейда крайне не рекомендуется.

Написано более трёх лет назад
Aecktann @Aecktann Автор вопроса

Я нашёл корень проблемы.

Дело в том, что метаданные drbd при такой схеме, как я описал, не страйпятся. Возможно, это издержки fio, в том плане, что он бьёт в какие-то не совсем рандомные секторы.
Я перебирал массив с разным размером чанка, от 4K до 4M, в любом случае под тестом два диска из массива нагружены до максимума (120-130 иопсов), а остальные стоят холодные.
Если вынести метаданные в отдельный диск (магнитный), то производительность системы по иопсам оказывается на половине производительности диска с метаданными. Можно натыкать SSD, конечно, но это полумера.
Можно поступить иначе и собрать много маленьких drbd-устройств, а потом объединить их с помощью md-stripe или md-linear, тогда получаются разумные цифры по производительности (450 иопсов). Правда, тоже выглядит маразматично.
Правильный путь — понять, почему метаданные не страйпятся, или страйпятся неправильно.

Написано более трёх лет назад
giner @giner

Мне кажется, что это нормальное поведение. Метаданные записываются очень маленькими порциями, но при этом DRBD каждый раз должен убедиться, что метаданные зафиксированны (так же как и с журналом в журналируемых ФС). Если рейд железный и с BBU, то метаданные быстро попадают в кэш рейда.
Можно ещё попробовать no-md-flushes (только для теста).
И вот ещё что, no-barrier и no-flushes для софтрейда лучше не использовать, рискованно.

Написано более трёх лет назад
Aecktann @Aecktann Автор вопроса

Да, это нормальное поведение, я согласен.
Ненормально, что метаданные оказались в одной паре дисков.
Курю.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Системное администрирование

+1 ещё

Простой
Что будет если выдернуть из розетки mikrotik находящийся в режиме safe mode?
- 2 подписчика
- 11 часов назад
- 135 просмотров
1

ответ
Linux

+1 ещё

Простой
На чем практиковаться начинающему админу?
- 2 подписчика
- 30 нояб.
- 663 просмотра
3

ответа
Windows

+1 ещё

Простой
Windows XP активация как решить без потери памяти?
- 2 подписчика
- 27 нояб.
- 640 просмотров
6

ответов
Linux

+2 ещё

Простой
В shinobi отображаются видео только за 24 часа, как увидеть все?
- 3 подписчика
- 27 нояб.
- 181 просмотр
0

ответов
Linux

+1 ещё

Средний
Почему не монтируются сетевые шары при VPN?
- 3 подписчика
- 23 нояб.
- 764 просмотра
1

ответ
Linux

+2 ещё

Средний
StrongSwan IKEv2/IPSec и fail2ban, как правильно настроить?
- 2 подписчика
- 22 нояб.
- 459 просмотров
0

ответов
Программирование

+2 ещё

Средний
Возможно ли написать программу, которая будет удалять все данные с дисков?
- 3 подписчика
- 19 нояб.
- 850 просмотров
10

ответов
Linux

+2 ещё

Простой
Какие подходящие характеристики для VPN?
- 1 подписчик
- 19 нояб.
- 1024 просмотра
3

ответа
Linux

Сложный
Как вылечить инфокиоск?
- 2 подписчика
- 19 нояб.
- 495 просмотров
1

ответ
Windows

+1 ещё

Простой
Удаление кэшированного пароля Windows — как?
- 5 подписчиков
- 14 нояб.
- 706 просмотров
6

ответов
Показать ещё Загружается…

DevOps

IT ATLAS • Москва

от 200 000 до 250 000 ₽

Специалист первой линии технической поддержки

Петрович-Тех

До 52 882 ₽

Сетевой инженер, OpenWrt, Linux

Ростовский завод электроники • Санкт-Петербург

от 20 000 до 60 000 ₽

Уточните дистрибутив и версию drbd
Дистрибутив и версия DRBD написаны пятью строчками выше вашего комментария.

Answer 1 · 2013-04-28 01:13:37

Метаданные на отдельное устройство вынесите. А вообще, да, у drbd это известная особенность.

Answer 2 · 2013-04-29 00:39:30

60Mb/s на Standalonе это очень мало.
Какая версия DRBD? 8.3 — недостаточно, минорный релиз тоже важен.
Кэш на запись на рейде точно включен?
Попробуйте no-barrier, no-flushes.
Проверьте syslog и kern.log.

Answer 3 · 2013-04-29 00:45:09

giner @giner

Я кажется что-то упустил. Это софт-рейд что ли?

Ответ написан более трёх лет назад

5 комментариев

DRBD — низкая производительность на запись?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт