Какой инструмент выбрать для анализа streaming data?
Всем привет.
Может кто-то сталкивался с таким, есть REST API, на него с разных источников приходят данные, хочу сохранять данные только если присланная структура данных совпала в 2 и более источниках. Например, 1 источник прислал данные, в этом случае в базу ничего не сохраняется, 2 источник через минуту прислал такие же данные, считаем эти данные актуальными и сохраняем в базу.
То есть такое впечатление что мне нужны какие-то потоки с уникальными идентификаторами, и в каждый поток складывать данные которые пришли с таким идентификатором и когда пришло от больше чем одного источника - считать их правильными и сохранять.
Может есть какие-то инструменты? То есть мне нужна схема подтверждения данных - если 1 источник прислал, считаем что не подтвердились, если 2 и больше считаем что данные актуальны, их можно сохранить в базу данных.
Был бы рад любым подсказам в какие инструменты копать.
Вам нужна промежуточная таблица, в которой сохраняются не обработанные данные. И крон настроить, что бы периодически запускал скрипт, который лезет в нее берет пришедшие запросы, сравнивает и т.д. и записывает в основную базу.
Как вариант: все-таки сохранять данные в базу, где добавить флажок "грязности" и по мере появления своего рода подтверждающих - сбрасывать флажок, ну и по мере устаревания грязных записей - удалять их.
Ну а там, где данные из базы отображаются - отображать только "чистые" данные