Как диагностировать странные network проблемы на AWS серваках?

Question

EgorkaOle @EgorkaOle

Как диагностировать странные network проблемы на AWS серваках?

Всем привет, не эксперт в AWS или нетворке, но наблюдаю странную ситуацию:
Используются М4 или М5 ЕС2 сервера с виндой, 10гбит проводимостью, несколькими нетворк интерфейсами, несколькими IP.
На серваках работает несколько нетворк интенсив апликах, которые подключаются к разным другим сервакам и сервисам по веб сокетам и другим протоколам. Обычно я вижу, что весь нетворк занимает где-то 30-50мбпс
Случаются такие ситуации, что одна из программ начинает испытывать серьезные нетворк лаги, например получает сообщения с задержкой или не получает их вовсе. Например:
10 аппов, все жрут по чуть чуть, один резко начинает жрать больше нетворка, в целом вся система жрет 100мбпс (обычно 30-50), 1-2 других аппа начинают страдать, помогает рестарт первого аппа c отключением некоторых соединений у этого аппа. Будет снижена нагрузка на нетворк и cpu.
Еще замечал, что похожее случается если один из аппов начинает жрать больше cpu, например 20-30% (всего система жрет 50% где-то в таком случае), тоже нетворк других аппов будет страдать и рестарт этого аппа может помочь.
Вообщем не понимаю почему использование 100 мбпс из 10гбпс может создавать такие проблемы.
Как такое может быть и где искать проблему?

Вопрос задан более трёх лет назад
156 просмотров

2 комментария

Подписаться 2 Сложный 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Инженер по автоматизации

13 месяцев

Далее
Яндекс Практикум

Системный администратор расширенный

9 месяцев

Далее
Merion Academy

Администрирование MS Windows Server

1 месяц

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Android

+2 ещё

Простой
Как наладить связь между Android и ПК версиями Touch Portal?
- 1 подписчик
- 17 апр.
- 104 просмотра
0

ответов
Windows

+1 ещё

Простой
Как можно определить мёртв SSD или жив?
- 1 подписчик
- 16 апр.
- 324 просмотра
4

ответа
Windows

+2 ещё

Простой
Перестало работать подключение по RDP Win 10 pro, что делать?
- 4 подписчика
- 16 апр.
- 478 просмотров
5

ответов
Компьютерные сети

+3 ещё

Средний
Как настроить DMZ, проброс портов и NAT loopback?
- 1 подписчик
- 15 апр.
- 161 просмотр
1

ответ
Сетевое администрирование

+1 ещё

Простой
Почему при включённом dhcp после перезагрузки, пк пытается принять занятый ip-адрес?
- 1 подписчик
- 14 апр.
- 408 просмотров
5

ответов
Компьютерные сети

+4 ещё

Средний
Проблема с получением IP по DHCP: веб-сервер на VMWare Player и роутер с локалкой?
- 1 подписчик
- 14 апр.
- 166 просмотров
3

ответа
Компьютерные сети

+2 ещё

Простой
Как клиентов роутера кинетик прокинуть в тунель WG?
- 1 подписчик
- 13 апр.
- 1588 просмотров
1

ответ
Windows

+1 ещё

Простой
Как собрать свой ISO образ на основе существующего?
- 1 подписчик
- 12 апр.
- 262 просмотра
3

ответа
Сетевое администрирование

Простой
Как ограничить фоновый трафик (Android + Windows 11)?
- 3 подписчика
- 11 апр.
- 412 просмотров
5

ответов
Компьютерные сети

+1 ещё

Простой
Почему отваливается домен apple.com?
- 1 подписчик
- 11 апр.
- 382 просмотра
2

ответа
Показать ещё Загружается…

Системный администратор

VINTEO • Краснодар

До 180 000 ₽

Руководитель подразделения

Гринатом • Ростов-на-Дону

До 190 000 ₽

Программист C++ (Qt)

Uniscan Research • Новосибирск

от 140 000 до 200 000 ₽

Внутри приложения какие-то метрики собираются? Как без них можно понять почему что происходит с приложением?
Собираются, на сколько я вижу в какой-то момент одно из приложений перестает получать сообщения или получает их с задержкой в вышеуказанных сценариях

Answer 1 · 2021-02-01 00:34:42

С практически 99.9% вероятностью AWS тут совершенно ни при чем.
1. Смотрите сетевой стек на проблемных серверах(хоть отмониторьте его что ли, вы же смотрите в мониторинг?) Например, довольно часто встречающаяся проблема - незакрывающиеся tcp close_wait. Оптимизируйте настройки сети под ваше приложение.
2. мониторьте само приложение - что меняется в моменты залипаний. Попробуйте какой нибудь APM(NewRelic, Datadog и другие) если приложение позволит.
Вообще, если бы у вас были данные для анализа - можно было бы что-то предполагать.
Делайте мониторинг, если он еще не сделан. Смотрите в мониторинг.

Answer 2 · 2021-01-31 22:02:47

Нет свидетельства того, что проблемы вызваны именно из-за сети. Смотрите в приложениях почему они не отдают данные, отлаживайте. Ищите блокировки.

Как диагностировать странные network проблемы на AWS серваках?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт