Как обеспечить отказоустойчивость сервиса независимо от провайдера?

Question

lecter @lecter

Как обеспечить отказоустойчивость сервиса независимо от провайдера?

Небольшая компания, всё on-premise, публикуем в интернет несколько сервисов: веб-сайты, вкс-система и т.д.
Подключено несколько провайдеров, чтобы обеспечить резервирование.
Проблема - все сервисы в DNS прописаны на публичные IP одного из провайдеров. Соответственно, если он падает доступ к сервисам теряется.
Пока придумали 2 варианта решения:
1) Перетащить всё в облако. Этот вариант не очень хотим использовать из-за требований инфобеза.
2) Стать провайдером и зарегистрировать свою ASN. Публиковать сервисы на своих IP. Этот путь пока не исследовали, но есть ощущение, что получим головняков с регуляторами.

Варианты, которые отвергли:
1) Переписывать адреса в DNS - на клиентах обновляется от 12 часов
2) Round-robin DNS - как я понимаю проблему совсем не решает. Будет отдавать кому-то работающий IP, кому-то неработающий.
3) Всякие обратные proxy в облаке. Вариант для веба приемлем, но остаётся и другой трафик (RDP, Web-RTC и т.д.)
Вопрос - может что-то упускаем. Есть ли ещё способы?

Вопрос задан более года назад
1686 просмотров

1 комментарий

Подписаться 6 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

DevOps-инженер

6 месяцев

Далее
Нетология

Python-разработчик с нуля

6 месяцев

Далее

Решения вопроса 2

10 комментариев

Ziptar @Ziptar

>выставлять голый rdp и инфобез в последнее время не сочитается
Эээ... А когда сочеталось?

Написано более года назад
Drno @Drno

Ziptar, никогда)

Написано более года назад
lecter @lecter Автор вопроса

А можете конкретное решение порекомендовать?

Написано более года назад
AntHTML @anthtml

Ziptar, в первые пару лет изобретения rdp, когда ботов было меньше и это небыло их первой целью

Написано более года назад
Ziptar @Ziptar

AntHTML, это было четверть века назад
lecter, если идти путем перенаправления всего трафика - можно попробовать использовать микротиковский eoip, что позволит ещё и агрегировать каналы от удаленного сервера до ваших серверов

Написано более года назад
Кот Абсолютный @CityCat4 Куратор тега Сетевое администрирование

AntHTML, Эхххх... когда-то и спама было меньше и вирусов в почте не было... Правда это было именно четверть века назад :)

Если небольшая компания завела двух провов - ей в любом случае нужен сетевик (который явно сразу же будет расти в безопасника), потому что задача переключения маршрутов при падении канала - она тоже ума некоторого требует. А возможность стабильной работы независимо от проблем провайдера разумеется тащит с собой оверхед в виде доп. расходов (на передний маршрутизатор, например - по рекомендациям там должно быть от 4G RAM, чтобы два full view помещались), доп. квалификационных требований и возможно еще одного человека.

Все имеет свою цену. И на это и есть руководство, которое должно подумать и сказать - да, стабильность важнее. Или - нет, перетопчемся.

Написано более года назад
AntHTML @anthtml

CityCat4, ну инструкций как на тот же MTK завести 2 прова и протянуть туннели до VPS в интернете достаточно, смышленный админ без проблем разберется.
А вот разбираться с AS и LIR, тут уже нужен "матерый бородач" особенно когда начинаются качания с провами о специфических настройках, что стыкуемся только с определенными версиями IOS. ttl не больше и т.п.
Сталкивался как-то с подобным, что SIP от провайдера приходилось приземлять на ISR, и потом передавать на Asterisk - как-то они умудрились сделать так, что по другому не работало.

Написано более года назад
Кот Абсолютный @CityCat4 Куратор тега Сетевое администрирование

AntHTML, Туннели не перенаправят почту :) Туннели не перенаправят RDP (есть пара пробросов по фиксированному IP).
Насчет AS я пока мало что знаю :) Хотя уже знаю, что далеко не каждый даже крупный пров - LIR :)

Написано более года назад
lecter @lecter Автор вопроса

CityCat4, раз уж тут развязалась бурная дискуссия вкину информацию. Склоняемся к своей AS. Бородатый админ есть, хотя и бреется. Главный риск вот тут https://docs.cntd.ru/document/1302960927 . Если кратко - с 1 сентября 24 владение ASN в РФ грозит покупкой СОРМ и взаимодействием с ФСБ. Но это не точно, пока выясняем.

Написано более года назад
Кот Абсолютный @CityCat4 Куратор тега Сетевое администрирование

lecter, Немножко не так, но близко :) Владение AS грозит установкой "черного ящика" от РКН (за свои деньги) и подачей кучи бюрократической отчетности по маршрутизации туда

Приказ РКН от 31.07.2019 #221

Хотя и в установке СОРМ я не вижу ничего особенного :) Тырнет делится на части со скоростью инфузории туфельки :)

Написано более года назад

Комментировать

Пригласить эксперта

Ответы на вопрос 5

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Компьютерные сети

+2 ещё

Простой
Почему упала скорость интернета на конкретном устройстве?
- 1 подписчик
- 24 окт.
- 315 просмотров
1

ответ
Компьютерные сети

+1 ещё

Простой
Проблема с интернетом?
- 2 подписчика
- 24 окт.
- 428 просмотров
0

ответов
Компьютерные сети

+1 ещё

Средний
Как найти и ограничить источник бродкаст/мультикаст трафика?
- 2 подписчика
- 23 окт.
- 355 просмотров
2

ответа
Компьютерные сети

+2 ещё

Простой
Возможно ли вывести изображение с ноутбука на три разных андроид телевизора внутри локальной сети(некий аналог anydesk)?
- 2 подписчика
- 22 окт.
- 322 просмотра
2

ответа
Сетевое администрирование

+3 ещё

Средний
Почему не работает OPNsense в режиме PortForward?
- 1 подписчик
- 19 окт.
- 143 просмотра
1

ответ
Компьютерные сети

+2 ещё

Средний
Как организовать сеть на Микротике с двумя интернет шлюзами?
- 4 подписчика
- 18 окт.
- 3194 просмотра
6

ответов
Linux

+4 ещё

Простой
Возможно ли получить интернет с openwrt в proxmox?
- 1 подписчик
- 17 окт.
- 328 просмотров
4

ответа
Компьютерные сети

Простой
Тип подключения провайдера?
- 1 подписчик
- 17 окт.
- 326 просмотров
3

ответа
Компьютерные сети

+2 ещё

Средний
Почему падает качество голоса при исходящих звонках VoIP?
- 2 подписчика
- 14 окт.
- 309 просмотров
1

ответ
Сетевое администрирование

Простой
Можно ли в Windows 10 без виртуальной машины сделать так, чтобы OpenVPN подключение распространялось бы только на конкретные программы?
- 1 подписчик
- 14 окт.
- 240 просмотров
2

ответа
Показать ещё Загружается…

Инженер мониторинга сети

Ростелеком • Екатеринбург

от 52 000 ₽

Главный менеджер управления поддержки продаж сети

ПСБ цифровая лаборатория • Москва

от 110 000 до 130 000 ₽

Начальник проектного отдела (проектирование сетей газоснабжения)

Мособлгаз • Мытищи

от 127 200 до 157 900 ₽

Чтобы ответить однозначно на ваш вопрос не хватает вводных. Казалось бы, самый "прямой" путь с организацией BGP с несколькими провайдерами в прошлом году полностью перечеркнут действиями регулятора. Новая обязанность для компаний, обладающих собственной автономной системой по внедрению СОРМ - точно непосильная ноша для большинства компаний.

Есть опыт решений подобных задач, могу поделиться лично. Напишите ваши координаты, пообщаемся.

Answer 1 · 2024-07-08 07:53:25

3й вариант самый оптимальный, rdp и тому подобное прекрасно живет на таких прокси (правда выставлять голый rdp и инфобез в последнее время не сочитается)
Касательно веба, еще часто используемый вариант, это выносить фронтэнд сайта на облако, а тяжелые ресурсы бэкэнда тянуть по своим каналам с пермиса.
AS для небольшой компании - неподъемная ноша, они выделяются от /24, и там нужно иметь отдельного сетьадмина который будет рулить bgp и бодаться с провайдерами чтобы настраивали у себя нормальную маршрутизацию

Answer 2 · 2024-07-08 15:32:43

Ну елы-палы, замерли в одном шаге от решения проблемы! Конечно же AS! Для чего еще берется два провайдерских канала? Я тем же занимаюсь и проблемы те же.

Какие тут проблемы:
- дааааааааааааааалеко не всякий, даже вроде бы как толстый пров - LIR, а только LIR имеет право регить AS, соответственно сначала нужно узнать, есть ли среди ваших LIR.
- МТС (через которого мы может быть будем работать - сказал так:

1) Только PA и только аренда
2) Все так – регистрируем AS на клиента через запрос от нас в RIPE так как мы LIR
3) Настройка BGP идет как обязательная услуга при аренде PA и регистрации AS
4) А BGP мы настраиваем только с нашим каналом - при аренде PA и регистрации AS мы юридически обязаны протащить трафик через нашу сеть. (фактически клиент может наш канал и не использовать под BGP, но на бумаге он должен быть)

То есть МТС делится своими запасами, которые и прописывает в AS.

UPD: Важно! После получения AS контора получает статус "организатора распространения информации" и ей надлежит зарегиться в РКН, написать там кучу разной бюрократии и - пока еще не подтверждено, но скорее всего - поставить у себя "черный ящик" имени РКН, который будет рулить блокировками (причем за свои деньги :) )

Приказ РКН #221 от 31.07.2019

По большей части это все касается конечно же трансграничной передачи

Answer 3 · 2024-07-08 08:20:50

Срок обновления записей DNS определяется настройками параметра TTL. (+ время обнаружения проблемы). Если записи обновлять скрипом (через API провайдера DNS, или через авторизацию по ключу), то время переключения составит менее 10 минут.

Answer 4 · 2024-07-08 08:27:26

Dns failover с проверкой доступной, например
cloudflare
Tyl у днс настраивается, вплоть до 1 минуты

Но я бы делал 3й вариант. Для любого трафф просто прокинув нужные порты с помощью iptables. На впс за 150р с гигабитным портом….

Так что да - вы что то упускаете, видимо грамотного сисадмина)) (ну или по малоопытности)

Ну и rdp в мир и инфобез - нерабочее сочетание))

Answer 5 · 2024-07-09 07:56:17

В DNS прописать одновременно несколько айпишников - самый дешёвый вариант. Есть минус в виде неоднородности поведения в http клиентах, но для браузеров работает отлично. В хроме, например, оно берёт рандом адрес, если он даёт ошибку (в худшем случае минутный тайм-аут), то переключается и пробует следующий из DNS. У меня так настроено уже чуть больше года. Когда один из адресов падает, клиенты больше думают, что на их стороне интернет провис, а не с нами проблема))
Создание as, аренда адресов и всё с этим связанное - это вариант вообще отличный, но требует гораздо больших затрат.

Answer 6 · 2024-07-10 04:29:52

купите VPS сервак и пробрасывайте через него, если будете BGP делать, горюшка хлебнёте много, много раз настраивал, вечные головняки

Answer 7 · 2024-07-18 10:45:54

Вы не учли более простой (как мне кажется) вариант с Dynamic DNS.

Есть простое решение, которое делается за час на базе okerr + dynamic DNS.
https://habr.com/ru/articles/359372/

Зайдите на https://cat.okerr.com/ и если вы увидите котенка и надпись "status=OK" - значит, эта система работает. При том что там всего 3 сервера и каждые 20 минут мы условно "пристреливаем" один из них :-) В первый заход вы почти 100% попадете на живой сервер. В последующие можете оставаться на "умершем" короткое время, пока DNS запись не переключится (это уже проблема с браузером, часто в инкогнито загружается правильная страница).

Кратко - при детектировании ошибки, изменяется DNS запись на то значение, которое работает. (Для этого не требуется, чтобы DNS хостер умел в DynDNS, можно даже и без этого)

Несколько тонкостей:
1. Ситуация "падает доступ" только в теории очевидная и однозначная (потому что мы ее сами выдумали, а не исследуем Н.Ё.Х. ). В реальности - это более серая ситуация. Что именно мы считаем "падает доступ"? Например, если потерялся один сетевой пакет (на самом деле случается регулярно) - это уже "доступ упал"? Если с сервера мониторинга в Амстердаме доступ есть, а с сервера мониторинга в Твери через минуту доступа нет - то как это понимать: Ваш сервис за эту минуту упал или просто какие-то локальные проблемы в Твери? И даже если проблема видна с обоих серверов - это уже повод для паники и переключения, или мы полагаем, что проблема может быть минутная и лучше пусть через минуту сама исправится? Придется ответить себе на эти вопросы, но любой ответ будет по-своему ошибочный, всегда будет trade off между скоростью переключения и ложными срабатываниями.

2. Все равно сохраняется некоторое временное "окно" недоступности. Представим, что в момент T0 вы выдергиваете кабель (симулируете проблему). Мониторинг может заметить первую проблему во время T1, которое зависит от настроек и удачи (если перепроверка каждые 30 секунд, то заметить может и через 1 секунду и через 29 секунд). Если у нас есть перепроверки (чтобы избежать ложных результатов), то перепроверка будет во время T2 (причем, вы самим можете хотеть, чтобы Т2 было не в ту же секунду, а дать хотя бы минуту, чтобы ситуация может быть сама решилась). Затем уйдет 1-2 секунды чтобы изменить DNS запись. И вот после этого момента, если клиент решил зайти на ваш сайт, он получит новый (работающий) IP - для него все супер. Но другой человек, кто уже работает с ним, в момент переключения будет иметь старую DNS запись, и для него все еще будет не работать, пока эта запись не протухнет в DNS кеше (в браузере, на компьютере, на DNS резолвере/роутере). Этот период времени можно сократить выставив низкий TTL в DNS.

Замечания по вашим вариантам:
1. Облака - тоже падают. Может постабильнее, но вот я через окерр слежу за своими серваками на разных хостерах, иногда ложится и дешевый hetzner и дорогой AWS. (Причем, я бы не сказал, что даунтайм у hetzner выше. Субъективно и по моему личному опыту - наоборот). Небольшое утешение - если вы НЕ будете использовать мониторинг - скорее всего, вы этого не заметите. :-) Но в целом облачный вариант достаточно надежен (если не ожидать от него абсолютных 100%).
2. Раунд-робин DNS - в принципе могло бы подойти. Но тоже каждая попытка будет занимать какое-то время и даже когда будет очевидно, что один IP у вас умер, раундробин по прежнему будет его выдавать. Но если юзер будет долбиться в кнопку refresh - то рано или поздно пробьется -). Хотя есть еще проблема с браузерным кешем (как выше вот описал). Как вариант - вообще сделать собственное веб-приложение (не путать с веб-страничкой), которое все все данные умеет брать с разных серверов. Не смогла взять с www1.example.com, ну значит лезет на www2.example.com. Тогда это будет почти незаметно для пользователя. Но дорого разрабатывать приложение с этой сложностью. И да, это только для веба.
3. Обновление DNS записей. Вы пишете про ужасные 12 часов. Это должно регулироваться полем TTL записи - если изменить ее, все будет лучше. Но до секунды лучше не менять, а вот 30 секунд (наверное, это минимум, не уверен, что подойдет), минута ли пять минут - выглядят как разумный компромисс в вашей ситуации.
4. AS, BGP и все прочие сатанинские слова. Страшно, очень страшно, мы не знаем что это такое, если бы мы знали, что это такое, но мы не знаем, что это такое. Вам это может быть кажется интересным вариантом именно потому, что вы не знаете, насколько этот вариант ужасен, не имеете опыта с ним и все его минусы и сложности и ужасы для вас пока скрыты. Проблем там будет дофига. А кроме всего прочего, подумайте вот о чем - я выше написал, как в окерре все сложно и неоднозначно с простой казалось бы вещью - "доступен ли у нас сервер или нет" (хотя старались сделать как можно проще). Так вот с динамической маршрутизацией - не лучше. Там ведь тоже есть те же самые проблемы диагностики (как отличить кратковременное падение линка на 2 секунды, от выхода из строя и избежать ненужного переключения?) и проблемы переключения (окей, один роутер догадался, что линк лежит - а как скоро все роутеры мира обновят свои таблицы маршрутизации? К ноябрю?). Даже если вы наймете супер гуру в AS / BGP вряд ли он вам гарантирует переключение за секунду или хотя бы минуту. BGP обеспечивает связность сети в принципе (вот, в масштабе "хотя бы к ноябрю"), но не обеспечивает моментальности или даже минутности, пятиминутности. И те процедуры обнаружения неисправности и восстановления скорее всего вам будет сложнее использовать и подкручивать под себя. Весь мир использует BGP, но не забывайте, что это тот же самый мир, который в 2024 году использует IPv4 из 1981 и не может перейти на IPv6. В общем, ну его.

Как обеспечить отказоустойчивость сервиса независимо от провайдера?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт