Проблемы с TCP соединениями в Linux. Как победить?

Question

yiicoder @yiicoder

Проблемы с TCP соединениями в Linux. Как победить?

Никак не могу отловить - во что упираются сетевые подключения.
Суть работы сервера:
Сервер занимается сбором статистики с клиентских приложений. На сервере запущен NGINX с простеньким скриптом на LUA, который отправляет полученные с клиента данные(очень небольшой JSON) в RabbitMQ.
Нагрузка в целом не большая - 30 000 RPM (500RPS).
Постоянно наблюдается следующая проблема: Те клиенты, которые в данные момент отправляют данные на сервер - проблем не испытывают. Новые же клиенты - при попытке установить HTTP соединение ожидают секунд по 20-30 с периодическим полным отвалом по таймауту.
Если вместо скрипта на LUA на каждый запрос просто отдавать JSON файлик, то картина никак не меняется.
Т.е. выглядит как проблема с настройкой сети в Linux на этапе установки TCP-подключения при большом количестве таких

Железо

Intel(R) Xeon(R) CPU E5-1650 v2 @ 3.50GHz Hexa-core
64GB Ram
LAN 1Gbit

CPU заружен на 20%, Оперативка на 20%.
IOTop не показывает сколько-то значимых обращений к диску.

Конфигурация NGINX примерно такая:

user www-data;
worker_processes auto;
worker_rlimit_nofile 262143;

events {
  worker_connections 262143;
  multi_accept on;
  use epoll;
}

http {
	sendfile on;
	tcp_nopush on;
	tcp_nodelay on;
	keepalive_timeout 10;
}

Перечитаву множество оптимизаций под HighLoad в sysctl прописывал следующее:

fs.file-max=100000
vm.swappiness=10
net.netfilter.nf_conntrack_max=1548576
net.ipv4.ip_local_port_range=10000 65000
net.ipv4.tcp_tw_reuse=1
net.core.somaxconn=15600
net.ipv4.tcp_fin_timeout=15
net.ipv4.tcp_tw_recycle=1
net.core.rmem_default=31457280
net.core.rmem_max=12582912
net.core.wmem_default=31457280
net.core.wmem_max=12582912
net.core.netdev_max_backlog=65536
net.core.optmem_max=25165824
net.ipv4.tcp_rmem=8192 87380 16777216
net.ipv4.udp_rmem_min=16384
net.ipv4.tcp_wmem=8192 65536 16777216

ifconfig eth0 txqueuelen = 10000 установлен.

Явно где-то есть какой-то bottlneck, но не пойму где. Особого понимания работы TCP стека в Linux нету, поэтому требуется помощь.

Вот например вывод, который к сожалению ни о чем мне лично не говорит, но TimeWait многова-то и что такое Closed.

root@st1 / # ss -s
Total: 296670 (kernel 296893)
TCP:   310953 (estab 2959, closed 307810, orphaned 149, synrecv 0, timewait 14403/0), ports 0

Transport Total     IP        IPv6
*         296893    -         -
RAW       0         0         0
UDP       18        12        6
TCP       3143      3140      3
INET      3161      3152      9
FRAG      0         0         0

Как понять - где застревает "сеть"? В какие ресурсы\значения упирается? С помощью чего вообще такое можно дебажить и какие настройки попробовать еще?

Вопрос задан более трёх лет назад
2019 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Инженер по тестированию

8 месяцев

Далее
Яндекс Практикум

DevOps для эксплуатации и разработки

7 месяцев

Далее
Skillfactory

Профессия «Белый» хакер

13 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 5

1 комментарий

yiicoder @yiicoder Автор вопроса

ОС:
root@st1 ~ # cat /etc/lsb-release
DISTRIB_ID=Ubuntu
DISTRIB_RELEASE=14.04
DISTRIB_CODENAME=trusty
DISTRIB_DESCRIPTION="Ubuntu 14.04.4 LTS"

Выполнил
1) ufw disable
2) "Отключил" iptables.
sudo iptables -X
sudo iptables -t nat -F
sudo iptables -t nat -X
sudo iptables -t mangle -F
sudo iptables -t mangle -X
sudo iptables -P INPUT ACCEPT
sudo iptables -P FORWARD ACCEPT
sudo iptables -P OUTPUT ACCEPT

Теперь там:

root@st1 ~ # iptables-save
# Generated by iptables-save v1.4.21 on Wed Mar 16 00:17:36 2016
*mangle
:PREROUTING ACCEPT [6381251:743938771]
:INPUT ACCEPT [6381251:743938771]
:FORWARD ACCEPT [0:0]
:OUTPUT ACCEPT [6443898:752651256]
:POSTROUTING ACCEPT [6443898:752651256]
COMMIT
# Completed on Wed Mar 16 00:17:36 2016
# Generated by iptables-save v1.4.21 on Wed Mar 16 00:17:36 2016
*nat
:PREROUTING ACCEPT [119386:6232877]
:INPUT ACCEPT [119386:6232877]
:OUTPUT ACCEPT [288211:17306358]
:POSTROUTING ACCEPT [288211:17306358]
COMMIT
# Completed on Wed Mar 16 00:17:36 2016
# Generated by iptables-save v1.4.21 on Wed Mar 16 00:17:36 2016
*filter
:INPUT ACCEPT [588896:68520896]
:FORWARD ACCEPT [0:0]
:OUTPUT ACCEPT [594692:69017483]
COMMIT
# Completed on Wed Mar 16 00:17:36 2016

Но полет тотже (

Написано более трёх лет назад

Комментировать

3 комментария

yiicoder @yiicoder Автор вопроса

Nginx дает в сумме 10% примерно

Написано более трёх лет назад
Евгений @Nc_Soft

yiicoder: я не про проценты спрашиваю, а про STATE, какой он во время затупов?
если там keglim, то надо увеличить kern.ipc.nmbjumbop

734 www 1 21 0 314M 10764K kqread 5 82:04 2.29% nginx
731 www 1 20 0 314M 10732K kqread 4 81:18 2.20% nginx
715 www 1 20 0 314M 11084K kqread 3 82:31 2.10% nginx
712 www 1 20 0 314M 10956K kqread 3 81:02 2.10% nginx
732 www 1 21 0 314M 11508K kqread 4 82:01 1.86% nginx
725 www 1 20 0 314M 11392K kqread 4 81:46 1.76% nginx
721 www 1 20 0 314M 11040K kqread 6 81:21 1.76% nginx
735 www 1 20 0 314M 11320K kqread 4 80:45 1.76% nginx
727 www 1 20 0 314M 10768K kqread 1 82:07 1.66% nginx
723 www 1 20 0 314M 11792K kqread 6 83:01 1.56% nginx
724 www 1 20 0 314M 11060K kqread 7 81:52 1.46% nginx
729 www 1 20 0 314M 11548K kqread 1 82:16 1.27% nginx

Написано более трёх лет назад
Евгений @Nc_Soft

yiicoder: также посмотрите ulimit -n

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+2 ещё

Простой
Какие подходящие характеристики для VPN?
- 1 подписчик
- вчера
- 243 просмотра
2

ответа
Linux

Сложный
Как вылечить инфокиоск?
- 1 подписчик
- вчера
- 330 просмотров
1

ответ
Linux

+1 ещё

Простой
Какие есть простенькие скрипты «HTTP over Email», чтоб поставить у себя на серваке?
- 1 подписчик
- 14 нояб.
- 365 просмотров
1

ответ
Linux

+3 ещё

Простой
Fedora 6 как починить загрузчик grub?
- 2 подписчика
- 13 нояб.
- 217 просмотров
1

ответ
Ubuntu

+1 ещё

Простой
Почему в ethtool не выводится информация о партнёре?
- 1 подписчик
- 12 нояб.
- 155 просмотров
1

ответ
Компьютерные сети

+3 ещё

Средний
Какие есть варианты для получения ploam из gpon'a мгтс ts-4000?
- 1 подписчик
- 11 нояб.
- 250 просмотров
2

ответа
Linux

+1 ещё

Средний
Как получить publicKey используя xray x25519?
- 2 подписчика
- 10 нояб.
- 347 просмотров
0

ответов
Компьютерные сети

+2 ещё

Простой
К внутреннему серверу можно подключиться только из вне. Почему?
- 1 подписчик
- 10 нояб.
- 393 просмотра
1

ответ
Linux

+1 ещё

Простой
Как установить «Госплагин» в Яндекс-браузер на Debian 12?
- 1 подписчик
- 10 нояб.
- 577 просмотров
1

ответ
Linux

+4 ещё

Простой
Не видно курсор в KDE, что делать?
- 1 подписчик
- 07 нояб.
- 203 просмотра
1

ответ
Показать ещё Загружается…

Linux Systems Engineer (Asterisk/SIP)

IT ATLAS • Москва

от 200 000 ₽

DevOps

IT ATLAS • Москва

от 200 000 до 250 000 ₽

Системный администратор

ТЕЛЕРУС • Москва

от 150 000 до 250 000 ₽

Answer 1 · 2016-03-15 22:19:37

На сервере есть фаервол?
На сервере есть натирование? Возможно вы уперлись в данные настройки, по умолчанию iptables имеет очень ограниченные настройки на кол-во Нат сессий

Answer 2 · 2016-03-16 00:31:41

Влад Животнев @inkvizitor68sl

Linux-сисадмин с 8 летним стажем.

backlog крутите.

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2016-03-16 03:34:53

Перечитаву множество оптимизаций под HighLoad

HighLoad - это 1000 кластеров из 50 стоек, по 10 блейдов, соеденнёных через Infiniband, работающих 24/7/365, с простоем 5 минут в год.
---

IPv6 нужен? Нет! Вырубить!
Ping до роутера из вне, с сервера?
RSS? delay?

ifconfig eth0 txqueuelen = 10000 лишнее. Это для сетевух 10Gb и дальше.
таблица маршрутизации?
tc ?
...

Дальше платно.

Answer 4 · 2016-03-16 07:23:45

Владимир @rostel

# sysctl net.ipv4.tcp_syncookies
# sysctl net.ipv4.tcp_max_syn_backlog
# cat /proc/ngix_master_PID/limits
# cat /proc/ngix_worker_PID/limits

Ответ написан более трёх лет назад

Комментировать

Answer 5 · 2016-03-15 22:38:11

Евгений @Nc_Soft

Посмотрите в top статус процессов nginx

Ответ написан более трёх лет назад

3 комментария

Проблемы с TCP соединениями в Linux. Как победить?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт