Распределенная одноранговая сеть кластеров с данными — где получить базовые знания (хочу учебник)?

Question

Алексей Дещеревский @adeshere

РАН, Фортран, временные ряды

Базы данных

Распределенная одноранговая сеть кластеров с данными — где получить базовые знания (хочу учебник)?

Добрый день всем!
Прежде, чем спросить, преамбула. В силу чудовищного стечения обстоятельств я внезапно узнал, что всю жизнь "говорил прозой". Образно говоря, мы занимались изготовлением неких "стульев" (они в нашем случае довольно специфические, поэтому был смысл их делать самим, а не покупать на заводе). Но вдруг оказалось, что если поставить этот "стул" на Яндекс-диск, то он превращается в велосипед. Причем тоже с некоторыми специфическими особенностями, которые, возможно, даже оправдывают такое велосипедостроение.
Проблема в том, что будучи специалистом по стульям, я вообще ничего про "велосипеды" не знаю. Мне нужен простой и доступный, но достаточно фундаментальный (т.е. не устаревающий за несколько лет!) учебник, который объяснит: что такое обычный велосипед. Зачем там нужны колеса, педали и руль, и почему их делают именно так. И заодно намекнет на существование двухподвесов, тандемов, фат-ов и прочего.

Теперь более конкретно по делу.
У нас есть несколько сотрудничающих научных групп в разных местах. Каждая такая группа ведет какие-то наблюдения за так называемыми

геофизическими полями

Например, в скважине на глубине 1км стоит высокочувствительный геофон,и пишет трехкомпонентный звук на разных частотах. Или в землю стационарно закопаны десятки электродов, на питающие подается знакопеременный сигнал, а на приемных регистрируется разность потенциалов, из которой благодаря накоплению можно довольно точно получить кажущееся сопротивление на разных разносах. Или в глубокой штольне на специальном постаменте стоит прецизионный наклономер, который пишет отклонение нормали к поверхности постамента от вертикали. И так далее.
На выходе получаются так называемые временные ряды. Задача - понять: как связаны сигналы такого рода друг с другом, а также с геодинамикой, включая техногенно индуцированные процессы, процессы подготовки землетрясений и пр.

Каждая из этих групп накапливает и хранит результаты своих наблюдений в виде базы данных временных рядов, которая реализована в среде нашей самодельной программы (это и есть тот самый упомянутый выше "стул"). И в этой же программе ведет их анализ и обработку, и т.д. и т.п.
Но с появлением Яндекс-диска внезапно выяснилось, что если эти базы записать на Я-диск, то та же самая программа начинает их воспринимать, как одну базу данных. Т.е. можно из Москвы работать с камчатскими наблюдениями, а из Пущино - с теми и другими вместе. Сперва это вызвало у авторов программы определенный ступор, так как она задумывалась, как

однопользовательское рабочее место

и все средства разделения доступа у нее сводятся к тому, что второй пользователь ставится в очередь, и ждет, пока база освободится. Но оказалось, что для наших задач этого, в общем достаточно. Делать что-то более капитальное нет смысла, поскольку кластеров с данными всего несколько штук. Распределенные вычисления просто не дадут выигрыша в такой ситуации, так как алгоритмы существенно усложнятся, и появятся накладные расходы на оперативную пересылку данных (для чего Я-диск не очень-то приспособлен). Проще, когда каждая группа использует свой компьютер локально. Поэтому называть все это распределенной базой данных, вероятно, неправильно?

В общем, у нас встал вопрос про осмысление происходящего.

Ну и теперь собственно вопрос. По сути, у нас возникло что-то странное, где каждый узел - это не комплект файлов данных, процессоров и процессов, взаимодействующих с другими узлами, а группа научных сотрудников. Которые полностью самостоятельно и самодостаточно ставят и решают свои задачи, используя собственные вычислительные мощности, но привлекают для этого данные из различных физически мест (которые благодаря Я-диску выглядят, как единая база).
Вопрос состоит в том, как это все правильно назвать и описать, используя общепринятую терминологию? И как правильно эту систему позиционировать на фоне существующих технологий?

Будучи чайником в мире "правильных" СУБД. я просто не сумел найти простое и понятное изложение базовых принципов построения и классификации подобных систем. Нужно что-то вроде введения в тему распределенных баз данных для продвинутых школьников, причем, в идеале, на русском (английский у меня исключительно с переводчиком). Вместо этого поиск дает кучу статей по очень конкретным вопросам. Но ведь прежде, чем изучать различия между переключателями Шимано и SRAM, мне сперва надо понять, зачем вообще нужен переключатель скоростей на велосипеде!

В сухом остатке.
Пожалуйста, посоветуйте:
1) базовый учебник, который может дать достаточно простое, но в то же время фундаментальное (то есть не устаревающее с появлением любой новой технологии) введение в тему
2) общий сравнительный обзор систем, которые используются сейчас для решения подобных задач, т.е. для экспертного анализа разнородных временных рядов, которые накапливаются и хранятся распределенно. Без излишнего погружения в детали реализации, т.е. скорее с точки зрения гендиректора, который решает - какая из этих систем лучше подойдет для его предприятия с учетом ее возможностей, цены, требований к эксплуатантам и т.д. Но и без явной рекламной направленности на какую-то одну конкретную технологию.

Вопрос задан более двух лет назад
38 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Алексей Дещеревский @adeshere Автор вопроса

Как именно происходит работа с данными (пример схемы - кусок нужных данных выгружается локально в виде копии, анализируется, удаляется... общая база как накопление данных, т.е. в них другие люди записывают и накапливают данные)?

У нас масштабы совершенно не те, чтобы собственную систему строить.
В нашем случае количество клиентов - это количество научных сотрудников, которые работают с общими данными.
Все данные сгруппированы в большое количество относительно компактных баз, содержащих пять-десять-двадцать временных рядов. Как правило, каждый ряд не больше гигабайта (измерения на частоте 0.01-10Гц длиной 1-20 лет). А часто и того меньше. При этом полный размер микро-базы часто бывает несколько Гб.
Обычно в каждой микро-БД хранятся сигналы, которые пишутся конкретной группой приборов. Также есть клоны этих баз, куда пишутся очищенные или преобразованные сигналы. Для транзакций такая микро-база блокируется целиком.
Как правило, каждая такая база сопровождается локально, одним-двумя конкретными сотрудниками, а всем остальным пользователям именно этой базы (их тоже всего несколько человек) нужен доступ почти только на чтение. Их повседневная работа - это анализ данных, который на 95% состоит из манипуляций с выборкой, которая хранится в локальном рабочем пространстве (в выборку, естественно, грузятся данные из нескольких таких микро-баз).
Обращение непосредственно к основной базе (чтобы эту выборку сделать или записать изменения) происходит довольно редко (несколько минут в сутки). Поэтому вероятность одновременного обращения нескольких клиентов к любой конкретной микро-базе есть, но она не очень высокая.
При этом флаг "база занята" пишется не в файлы с данными, а в небольшой отдельный файл, который синхронизируется гораздо быстрее.

Существующее решение на основе Яндекса нас в общем устраивает, хотя иногда возникают проблемы из-за задержек синхронизации. Более конкретно, работа с Яндекс-облаком у нас выглядит так:
1. Обычно каждый клиент (= научный сотрудник) постоянно работает с ограниченным числом микро-баз. Поэтому он заранее ставит в интерфейсе Я-диска у нужных микро-баз флаг "хранить копию на компьютере". В результате Я-диск дублирует эту микро-базу на его комп. Причем таких локальных компьютеров может быть много.
2. Для программы, работающей на локальном компьютере, эти файлы выглядят, как локальные. Если программа их изменяет, то начинается синхронизация этих изменений с облаком, а затем и с другими локальными компьютерами. Именно в этот момент и возникают

небезопасные конфликты между клиентами
каждый из которых де-факто видит только локальную копию общих файлов. Поэтому для сколько-нибудь нагруженной системы наша технология непригодна.
То есть, основной баг нашей системы: клиент не всегда вовремя распознает, что база
занята кем-то другим
так как некоторое время он видит ее несинхронизированую копию, где флаг "занято" еще не включен

Спустя какое-то время (это ключевой тайминг!) Яндекс замечает, что доступ к базе идет одновременно из двух мест, и создает файлы с постфиксом (2). Пришлось из программы специально это отслеживать и выделить в особый тип конфликтов.

Но в первом приближении система свои задачи как-то решает. Хотя она и сделана в стиле физических лабораторий середины прошлого века, когда приборы для самых передовых экспериментов нередко конструировались "на коленке" с использованием синей изоленты, пластилина и проволоки.

А вопрос в другом: нужно понять, к какому типу систем (задач) относится наш "велосипед" ( и не самокат ли это на самом деле?). И как похожие задачи сейчас решаются на практике?
То есть, интересует хороший вводный обзор в стиле вот этого. Но чуть более приближенный к нашим задачам и с
более развернутыми примерами
Причем описание хочется в стиле от общего к частному: то есть вот есть задача "А", в разных программных системах она решается вот так (описание и сравнение решений...). Вот задача "Б" (...), и т.д.
А не наоборот: "MongoDB умеет (список возможностей и ограничений); Couchbase умеет (список возможностей и ограничений); и т.д.

Если следовать вот этой классификации, то наша система на основе Я-диска похожа на гомогенную распределенную СУБД. Однако из 12 правил К.Дейта она реализует только первые 7 (и, с некоторыми натяжками, 8). А пункты 9-12 не просматриваются даже в конце тоннеля.

А еще в упомянутом обзоре мне не хватает чуть более подробного объяснения, как именно все эти пункты реализованы на практике в разных системах. То есть чего-то похожего на пункт 5.7, но только в виде "спойлера" к каждому пункту предыдущего текста.

Короче говоря.
В интернете сейчас есть тьма информации по всем этим вопросам. Но неспециалисту очень трудно понять: какой именно "вводный курс" действительно хорош. К примеру, та же википедия в качестве такого "введения в тему" непригодна чуть больше, чем полностью.

Понятно что на вкус и цвет товарищей не бывает. Но тем не менее, я надеюсь на советы (можно просто ссылки) от более бывалых коллег - с каких материалов, на Ваш взгляд, стоит начать знакомство с темой, учитывая все перечисленные "хотелки"

UPD: И еще уточню, чтобы не было двусмысленности. Мы сейчас не планируем переходить на другую СУБД. Наша система и в плане интерфейса, и в плане производительности оптимизирована под временные ряды геофизического мониторинга. Для получения сравнимых характеристик от других инструментов потребуются на порядок более дорогие решения плюс куча программирования, так как стандартные SQL-запросы под наши задачи придется дорабатывать совсем не напильником.
Вместо этого стоят три другие задачи:
1) По факту, у нас родилась "не мышонок, не лягушка, А неведома зверушка" (с). Хочется для начала понять - что же это за зверь?
2) Также интересно узнать, как похожие задачи принято решать в других предметных областях. Вдруг существуют какие-то простые и полезные технические приемы, которые можно без больших усилий применить в нашей системе, чтобы пофиксить ее недостатки?
3) Также интересно составить более конкретный список возможных альтернативных технологий, и более четко сформулировать их плюсы и минусы по сравнению с нашей существующей схемой работы.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Инженер по тестированию

5 месяцев

Далее
Skillbox

Старт в DevOps: системное администрирование для начинающих

4 месяца

Далее
Thinknetica

Профессиональная разработка на Ruby on Rails

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб.
- 77 просмотров
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб.
- 244 просмотра
2

ответа
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб.
- 183 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 190 просмотров
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт.
- 240 просмотров
4

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 326 просмотров
1

ответ
Базы данных

+2 ещё

Средний
Как автоматически откатить в CI/CD миграции при помощи Goose, если их было несколько?
- 3 подписчика
- 04 сент.
- 447 просмотров
1

ответ
SQL

+1 ещё

Простой
Какие таблицы для продуктов (и их вариантов) в БД использовать?
- 1 подписчик
- 02 сент.
- 218 просмотров
1

ответ
Базы данных

Простой
Как вы работаете с Milvus в контексте RAG-системы?
- 1 подписчик
- 25 июн.
- 95 просмотров
1

ответ
Node.js

+2 ещё

Простой
Как сделать регистрацию без слета через fs?
- 1 подписчик
- 03 июн.
- 168 просмотров
2

ответа
Показать ещё Загружается…

Начальник проектного отдела (проектирование сетей газоснабжения)

Мособлгаз • Мытищи

от 127 200 до 157 900 ₽

Технический руководитель/Technical Lead(государственная информационная система)

ЛАНИТ • Москва

До 400 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 350 000 ₽

Answer 1 · 2023-04-02 07:08:31

с точки зрения гендиректора

в некотором смысле тут все просто

Либо ты своими силами на своих или арендуемых мощностях (т.е. буквально свой компьютер-сервер, выделенный сервер провайдера DS/виртуальный сервер провайдера VDS/VPS) с реализуешь хранение данных, для этого более чем много инструментов, и если данных относительно мало (миллионы записей) то возможно вам хватит любой sql базы (бесплатные postgres/mysql).

Либо ты выбираешь готовый сервис хранения, предоставляемый облачными провайдерами, которые вместе с механизмом хранения (обычно свой, для вендорлока) предлагают и инструменты по работе с этими данными. Крупные провайдеры предлагают до кучи еще и аренду полноценной машины, тот же амазон aws и yandex.

Первое направление дает больше контроля над способами хранения и возможность очень гибко перераспределять затраты между своими разработчиками и провайдерами (при личных серверах можно фактически замкнуть все затраты на свою компанию но нужны люди, которые будут заниматься буквально всем, вплоть до обслуживание серверов). Это очень эффективно по деньгам, особенно когда работы много.

Второе - это возможность передать часть или всю работу на аутсорс (этим облачным решениям) и только заниматься собственно обработкой данных, но чаще всего это в итоге дороже (облачные компании 'собаку съели' на том чтобы привязать клиентов к себе и доить в будущем, когда уход из площадки становится дороже чем продолжать платить).

По факту у тебя выбор - плавное перераспределение средств между сделать у себя своими силами до отдать всю работу на сторону. Иногда второе выгоднее и удобнее (когда работы не регулярные, эпизодические).

Теперь вопросы - чем вас не устраивает текущее облачное решение от яндекса? Что вы пробовали локально?

Как именно происходит работа с данными (пример схемы - кусок нужных данных выгружается локально в виде копии, анализируется, удаляется... общая база как накопление данных, т.е. в них другие люди записывают и накапливают данные)?

От того, как именно происходит работа зависит выбор инструмента.

Распределенная одноранговая сеть кластеров с данными — где получить базовые знания (хочу учебник)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт