В какую сторону двигаться при создании системы отслеживания состояния большого количества устройств (Fault Management)?
Здравствуйте.
Имеется 400'000 устройств, которые шлют суммарно порядка 1'000 a-la syslog сообщений в секунду. В каждом сообщении, помимо прочего, имеется идентификатор устройства, а также "число ошибок". По некоторому алгоритму надо выдать аларм (и показать идентификатор устройства, для которого он сработал), когда число ошибок за определённый период времени превышает настраиваемый порог (будут и другие алгоритмы определения "проблем").
Пока интересует концепция.
Сейчас использую MySQL (с партиционированием по вспомогательным полям) + Python на единственном сервере, но система загибается.