@fso

Безвестно падает Debian с pve на борту?

Попался на глаза пост про пакет смерти для сетевых Intel, подозреваю примерно аналогичный баг у себя на сервере.

Буквально недавно, 18 января, взял сервер в Hetzner EX4.



С помощью installimage поставил готовую сборку

Debian + Proxmox, ядро 2.6.32-17-pve, pve-manager 2.2-32, сетевая  RTL8111/8168B PCI-E (rev 09).


Пустил трафик с боевого приложения около 60-80 Мбит/с, в логах пошла ругань

kernel: TCP: time wait bucket table overflow (CT0)

в sysctl

net.ipv4.tcp_max_tw_buckets=3800000

эффекта не дало



В произвольные, как показалось, моменты времени, через 5-10 минут после подачи трафика, сервер самопроизвольно зависал (по крайней мере сетевой интерфейс) после холодного ресета, в логах — ничего, то есть обычный рабочий лог просто прерывается логом начала загрузки (ресет).



После снятия нагрузки по трафику, с практически нулевым трафиком, сервак продолжил зависать, но раз в несколько дней — симптомы абсолютно теже, хотя ругани в логах нет вообще никакой (bucket table overflow тоже пропало)



Кто-нибудь сталкивался с таким поведением? Что это может быть?



PS: в том же хетзнере, на другом сервере RTL8111/8168B PCI-E (rev 02) держится под этой нагрузкой наура (собственно с него и думал переносить)
  • Вопрос задан
  • 5374 просмотра
Решения вопроса 1
@fso Автор вопроса
Подведу итоги. После обновления биоса — падения полностью прекратились. Сейчас месяц аптайма полностью без артефакта.
Может кто еще столкнется с такой проблемой — обновить биос и поставить драйвер r8168 (это я сделал до обновления и возможно будет работать без r8168).
Ответ написан
Пригласить эксперта
Ответы на вопрос 11
@LightFalcon
Была точно такая же проблема, решилась заменой сетевых карт на Intel'овские PCE-Express.
Программными средствами вылечить не получилось.
Ответ написан
opium
@opium
Просто люблю качественно работать
У меня аналогичная проблема с серверами на ex4s
Начиналось все с proxmox 2.1 сейчас последняя версия 2.2
сейчас оставил только тестовые окружения там
зависания происходят как у вас
черный экран на клаву не реагирует, помогает ресет из панели управления.
мне кажется сервера линейки ex4 отличаются по железу, так как я спросил у суппорта проксмокса, что не так, они ответили что у них есть несколько серверов в хетзнер ex4 и таких зависаний нет, говорят делайте тесты хардваре, а я уже дважды заказывал тест памяти и всей системы.
Сейчас работают только openvz окружения, зависает от нескольких раз в неделю до 1 раза в месяц, заметил что если запускаю терминальный windows сервер то зависает стабильно в течении трех дней.
В логах как всегда чисто, если не намертво зависает ядро, то думаю может как то проблема связана с дисками на три террабайта и выравниваением.

один юзер в личку посоветовал
В биосе попробуйте:
1) отключить все ненужные устройства — USB/звуковую карту
2) Поиграться с настройками ACPI
3) отключить энергосбережение процессора

думаю взять лару и потыкать биос.
Ответ написан
script88
@script88
Сетевая карта у вас r8169 с накатаннымы дровами от r8168 или все таки r8168?
Ответ написан
@inkvizitor68sl
Linux-сисадмин с 8 летним стажем.
echo «deb backports.debian.org/debian-backports squeeze-backports main contrib non-free» >> /etc/apt/sources.list
apt-get update
apt-get install -t squeeze-backports linux-image-3.2.0-0.bpo.2-amd64

Ну или какое там поновее найдете.
Ответ написан
@fso Автор вопроса
Плохо дело. Значит за бесплатно не поменяют, а две недели теста уже прошли и двойную абонентку уже отдал.
Но мириться с пропадающим внезапно сервером — не дело. На втором серве аптайм два года — доволен полностью.
Пробую значит загрузить обычное ядро, подать нагрузку. Если падения не будет, то дело в pve ядре и копать в ту сторону (оставить только kvm).
Если продолжит падать, попробовать обычное ядро поднять до 3.х и повторить тест.
Уж если совсем ничего не поможет, брать другой сервак или писать в саппорт чтобы поменяли. Таки неделю парился.
Ответ написан
@van
Спасибо всем кто так или иначе отписался в этой ветке. Проблема идентичная на 100%
также имеем сервер 4s на хетцнере, также время от времени сервер без каких либо логов «исчезает» и помогает
лишь перезагрузка через панель.
Умаялся, месяц уже воюю, самое обидное что на одном форуме постоянно пропадают таблицы при падении,
в общем полный абзац.

Большое спасибо за инструкцию которую выложил скрипт, благодаря ей обновил сетевуху и теперь жду, посмотрим на эффект.
Биос 1005, сетевуха такая же как в инструкции, в общем следим и надеемся на лучшее.
Ответ написан
@van
проработал сервер неделю и снова повис ((((( я в полной растерянности, ребутнул его еще раз и посмотрим что теперь будет. Но если и дальше будет виснуть то видимо переезд будет неизбежен… как он меня достал ((((((((((
Ответ написан
@van
в общем народ советует еще ядро обновить до 3.2, сейчас дождусь очередного падения и буду пробовать ядро обновить как написано тут
unixforum.org/index.php?showtopic=133288&st=0&gopid=1240511&#entry1240511
Ответ написан
@van
обновление ядра не помогло, сервер по прежнему виснет. Биос 1005, сейчас попробую еще его обновить до 1105, но даже не знаю если стоит овчинка выделки
Ответ написан
@van
писал уже раз пять, первый раз они целиком на 12 часов выключали сервер тестируя и проверяя железо, второй раз поменяли блок питания, далее тестировали часа четыре оперативную память, сейчас они уже разводят руками греша на программные ошибки, причем не уточняя какие именно.
Сейчас заказал обновить биос хотя у меня 1005 уже стоит, поэтому даже не знаю как быть… если только новый сервер просить, но вот тут unixforum.org/index.php?s=&showtopic=133288&view=findpost&p=1228920 пишут о такой же проблеме и о ответах поддержки хетцнера а у одного товарища даже переезд на другой сервер не помог ))
Ответ написан
@van
в общем похоже локализовал и решил проблему. У кого подобное случится прошивайте биос. Где то там проблема где именно не удалось выяснить да это и не нужно, в общем добивайтесь прошивки после которой все сразу станет нормально.

Что интересно у меня и у еще одной «жертвы» есть машинки этой же линейки EX4 но с более старым биосом взятые год назад так вот там все отлично работает. В общем вот так :) Всем удач!
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы