Теория: структура высоконагруженного сервиса?

Question

spry @spry

Теория: структура высоконагруженного сервиса?

Хотелось бы от хабралюдей узнать в чем мои суждения неверны. Итак, приступим-с.

Задача: построить сервис, с возможностью горизонтального масштабирования, который в будущем теоретически будет высоконагруженным.

Каковы мои размышления на тему, вопросы по каждому пункту прямо в нем:

— имеется домен (имя взято с потолка) hls.com

— у регистратора у этого домена прописано максимальное количество DNS серверов (6?), которые собственные и разбросаны по миру (имеет ли это смысл?)

— DNS зона содержит в себе максимальное количество A и AAAA записей (32?) дабы получить DNS round-robin.

— На каждом адресе, указанном в DNS, висит load-balancer (аппаратный или же софтовый? как load-balancer определяет какой сервер выдать, как он определяет самый менее нагруженный сервер?)

— Каждый load-balancer заведует неким количеством ngnix-серверов (или какой-то другой софт, если да, то какой? как ngnix может выбрать сервер самый менее нагруженный?)

— ngnix-сервер заведует неким количеством web-серверов, которые собственно дают контент.

— Каждый web-сервер имеет на машине Apache HTTP, PHP или Ruby и локальный memcached (или локальный не стоит?)

— За web-серверами стоят 2 вида баз данных — там где хранятся связи между объектами и собственно сами объекты. Все из них по условию должны уметь масштабироваться горизонтально.

— В качестве распределенного хранилища объектов используем что-то вроде memcacheDB или BigTable (или какую-то другую? т.е. у каждого объекта есть уникальный ключ, несущий в себе не только ID объекта как таковой но и информацию о типе объекта)

— В качестве распределенного хранилища связей нужно использовать какую-то БД на основе графа (правильно? если да, то какую?)

— Имеется также 2 набора memcached серверов которые кешируют запросы к обоим видам БД.

Хабралюди, мыслю ли я в правильном направлении? Что я не учел? Где почитать? Кто уже делал? Помогите просветлиться в этом.

Вопрос задан более трёх лет назад
10335 просмотров

5 комментариев

Подписаться 30 Сложный 5 комментариев

spry @spry Автор вопроса

Забыл сказать — мне кажется что в графе связей должно быть 2 вида связей: parent<->child и owner<->property (в смысле владение). Зачем? К примеру у нас есть комментарий к статье. parent для него — статья. owner — пользователь который этот комент написал.

Написано более трёх лет назад
spry @spry Автор вопроса

И еще — как решать проблему резервирования данных? К примеру одна нода из батареи key-value хранилища объектов совсем поломалась, и т.д.

Написано более трёх лет назад
pentarh @pentarh

Вы неправильно зашли. Вы описываете сначала технологию, в ходе которой выясняется изначальная задача. А должно быть наоборот. Ведь если вы уже определились с технологями, то зачем вам хабрасоветы?
Что за проект, какова структура, какой тип нагрузки планируется и т.д.

Написано более трёх лет назад
spry @spry Автор вопроса

Прошу прощения, не сильно хорошо структурировал вопрос :)
Итак. Задача: спроектировать структуру для высоконагруженного сервиса с элементами социальной сети. То есть, имеем все обычные виды контента: статьи, фото, видео, звук, гео-координаты, комментарии и т.д.
Требования: изначально структура должна быть масштабируемая горизонтально. То есть, в начале нагрузки почти нет (на 1 физическом сервере крутятся все ноды). При возрастании поднимаются новые сервера с нодами. Да, идеальная мечта :)
Я не описываю технологии, я лишь говорю свои предположения, полученные в результате чтения и обдумывания этой информации с хабра и гугла. Хабрасоветы мне нужны чтобы понять, в правильном направлении ли я думаю, не делаю ли каких-то вопиющих архитектурных ошибок, которые вылезут потом.

Написано более трёх лет назад
spry @spry Автор вопроса

Неужели больше никто ничего не скажет?

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

OTUS

Highload Architect

5 месяцев

Далее
Яндекс Практикум

Архитектура программного обеспечения

6 месяцев

Далее
REBRAIN

HighLoad

12 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 9

10 комментариев

spry @spry Автор вопроса

К счастью я так не думаю и не фантазирую на тему мирового господства достаточно узко-направленного сервиса :) Из вашего рассказа для себя в технологическом плане вынес заметку о кеше — думать о нем желательно сразу. Конечно же, не стоит все переусложнять, но все-таки keep-in-mind стоит во время разработки. Под статикой понимается оформление страниц и то что так или иначе с этим связано (картинки, таблицы стилей)? Или же в добавок к этом еще и статический контент, который добавляется динамически (простите за такое изречение)? Я имею ввиду к примеру медиа-контент пользователя отдается на прямую в виде файлов. При этом получается что по прямой ссылке на контент он доступен в обход тех или иных ACL.

Написано более трёх лет назад
Евгений @immaculate

Под статикой понимается HTML, CSS и медиа-контент. Да, в нашем случае он отдается напрямую в виде файлов без проверок ACL. Если нужно проверять, то для nginx существует какой-то модуль, реализующий такие проверки, просто в нашем случае это непринципиально.

Почему важно думать о кэшировании: во-первых, первый раз кто-то должен заполнить кэш. Это значит, что как минимум один пользователь должен подождать длительное время. А если каждому показываются разные данные, значит каждый как минимум один раз должен будет ждать (на самом деле, более одного раза). Поэтому кэш — не панацея. Во-вторых, инвалидация — чертовски сложная вещь. Если удалять из кэша изменившиеся данные слишком часто, то не будет никакого выигрыша от кэширования. Если слишком редко или забыть где-то вызов инвалидации, то пойдет волна жалоб от пользователей на то, что они что-то делают, а результат не видят. Когда есть много связанных сущностей, чистить/обновлять кэш становится очень сложно, легко можно забыть о каком-нибудь условии.

Различные автоматические решения, в случае с нашим проектом на Django, это например johnny-cache, работают только в простейших случаях. Они все равно забывают периодически очистить кэш, и даже несмотря на вручную расставленые cache.delete пришлось отказаться от johnny-cache и ему подобных. Потому что проблемы все равно возникают, и решить их намного сложнее, чем исправить свой код.

Написано более трёх лет назад
spry @spry Автор вопроса

Ну как всегда, решение одной проблемы приносит новые, в данном случае инвалидация кеша! Спасибо за подсказки! Не знаете кто бы мог рассказать по топику о практике использования nosql и шишек связанных с этим?

Написано более трёх лет назад
Евгений @immaculate

Я не могу. Экспериментировал с Redis, результаты были многообещающие, но redis — почти то же самое, что memcached. Все данные хранятся в памяти, поэтому нужны сервера с огромными объемами RAM (начиная с 8-16 Gb). Начальство не дало добро на такое расширение. К тому же, сохранение на диск у него все же кривоватое.

Как я понимаю, у всех NoSQL все хорошо до тех пор, пока данные помещаются в RAM. По крайней мере, у MongoDB такая же проблема судя по тому, что читал.

В общем, планирую перенести лишь маленькие части сайта, типа различной статистики, на redis.

Кстати, в redis удобнее кэшировать некоторые вещи, чем в memcached, из-за того, что данные не теряются при перезагрузке и из-за того, что поддерживаются сложные типы (списки, словари). Можно не удалять/переписывать данные при каждом изменении, а, допустим, обновлять список при появлении нового элемента.

Написано более трёх лет назад
spry @spry Автор вопроса

Мне кажется мы о разных вещах говорим. memcached != nosql насколько я понимаю. А redis скорее не memcached а memcacheDB. Т.е. я понимаю под nosql все-таки базу которая хранит данные на дисках, а не в оперативке. А за/перед nosql стоит уже memcached который это дело кеширует. Или я в чем-то ошибаюсь?

Написано более трёх лет назад
Евгений @immaculate

Ну, да, redis похож на memcached с сохранением на диск. Впрочем, в отличие от memcached он поддерживает более сложные типы данных, и формально относится к NoSQL. На нем одном можно построить довольно нетривиальное приложение.

Остальные NoSQL решения толком не щупал. Игрался с CouchDB и Mongo, но только игрался. Про Mongo не раз читал, что если объем базы превышает размер RAM, то наступает задница. Меня такие решения не интересуют — если бы у нас был бюджет на сервера с 32-64 Гб RAM, то на них и PostgreSQL летал бы, без мучительного переписывания приложения.

Написано более трёх лет назад
spry @spry Автор вопроса

Не щупали те которые распределенные? Типа BigTable? Да, про Mongo и я читал что горизонтального масштабирования там нету нормального, только вертикальное.

Написано более трёх лет назад
VBart @VBart

Все объектные, и тем более, более примитивные key-value базы — прекрасно горизонтально масштабируются практически без потери своих возможностей. Это свойство просто фундаментальное и следует непосредственно из теории. И MongoDB не исключение, прямо на главной странице www.mongodb.org/ — одним из ключевых свойств выделено:
# Auto-Sharding »
Scale horizontally without compromising functionality.
и это не считая:
# Replication & High Availability »
Mirror across LANs and WANs for scale and peace of mind.
ну и само-собой partitioning вы можете использовать всегда, если он архитектурно вам доступен.

Написано более трёх лет назад
spry @spry Автор вопроса

Это я читал у них на сайте, но так же из других источников при поиске «по теме» я несколько раз прочитал что MongoDB не столь успешно масштабируется горизонтально. Теперь я точно уверен что нужно будет смотреть и пробовать самому.

Написано более трёх лет назад
LINKeR UA @LINKeRxUA

100% согласен с мнением "..те, кто думают, что их проект тут же захватит мир, чаще всего ошибаются.." Но все же на первых этапах жизни приложения, разделить логику работы по разны хостам одного и того же сервера можно и даже нужно! Так как это не создаст много трудностей при дальнейшем масштабировании и переезде целого хоста на отдельную машину

Написано более трёх лет назад

6 комментариев

VBart @VBart

Я так упрощенно все описал, а в целом, архитектура проекта — это сложная комплексная задача, требующая соответствующего подхода. Нужно уметь выявлять потенциально узкие места, как производительности, так и по возможностям наращивания функционала, трудоемкости поддержки и реализации. И как несколько раз повторил, любая архитектура — это один большой компромисс, между кучей факторов. Если вдруг, в чем-то компромисса вы не видите, то вы стоите на опасном пути, вы просто чего-то не учли.

Написано более трёх лет назад
spry @spry Автор вопроса

Благодарю как за советы, так и за отзывы о моей весьма малой компетенции в вопросе поднятом в топике, они очень и очень ценны. Хотя в кое-чем я все же с вами не согласен, поскольку не только задача влияет на выбор технологии, но и наоборот, с развитием решения этой задачи. Список из первичного поста тоже ведь не с потолка был взят, и вопросы сводились «Вот то что мне пришло в голову. Сильно ли я дурак с такой мыслью?».

Мне бы очень хотелось услышать о более приземленной практике использования nosql (я прочитал в вашем профиле что вы используете и nosql также). И ни в коей мере я не прошу решать за бесплатно мои задачи, как и вообще решать мои задачи, иначе бы я описал все гораздо более в полной мере с предполагаемыми нагрузками, задачами и предположительными проблемами. К примеру вопрос о базе для хранения связей. Вопрос по этому пункту вероятно лучше сформулировать так: «Вы использовали? Какую? Для решения чего? Обо что шишки набили?». Такого вида вопросы можно ставить почти к всем пунктам что я описал в самом начале. Как вы сами понимаете, это позволит мне откинуть совершенно идиотские свои же выводы, или же проанализировать ту или иную область системы более детально. Т.е. мне интересен опыт других в подобной тематике, ибо я не хочу набивать уже многими пройденные шишки, поскольку это будет достаточно пустая трата времени.

Написано более трёх лет назад
spry @spry Автор вопроса

«приземленной практике использования nosql» — имелось ввиду что-либо отличное от скудных данных о структуре фейсбука и т.п.

Написано более трёх лет назад
VBart @VBart

Я не очень понимаю, что значит «база для хранения связей», я конечно догадываюсь, но такое разделение опять же довольно прикладного уровня, вы должны четко понимать, зачем оно вам нужно.

Любая база хранит связи. Даже примитивные key-value, как минимум хранят связь между ключом и его значением. Объектные базы хранят связи в виде объектов, а иногда еще дополнительно в виде чего-то обобщенного (коллекции например в MongoDB, а в RIAK вообще есть такие штуки, как ссылки). Если вы хотите хранить связи еще как-то отдельно, то для этого нужно иметь очень веский повод, как минимум в этом случае вам нужно дополнительно какой-то механизм городить, который обеспечивал бы непротиворечивость между этакой «базой связей» и «базой объектов».

NoSQL решения есть очень разные. Пожалуй тут всегда можно подобрать конкретное под конкретные требования. Я более менее знаком, только с MongoDB, CouchDB и RIAK. Каждое из этих решений стабильно, имеет будущее и на сайтах этих проектов вы можете найти документацию, а также увидеть кто их уже применяет на практике. Не надо боятся NoSQL, но и не надо забывать, что это звучит как Not only SQL. Если вам безумно нужны традиционные транзакции, то скорее всего, стоит все же посмотреть в сторону той же PostgresQL.

Если очень кратко, по особенностям то:
— все трое получают и возвращают в итоге JSON

MongoDB:
— динамические запросы, очень похоже на SQL-подход
— отсутствуют какие-либо гарантии single-server durability, сразу готовьтесь ставить сервера пачками
— очень быстро развивается, релиз-цикл чуть ли не 3 месяца, постоянно появляются новые вкусные фишки… те кто пробовали ее хотя бы полгода назад — уже не в теме =)
— можно гибко настраивать поведение при изменение\добавлении данных в каждом запросе: начиная от когда функция возвращает управление в процесс сразу, как только запишет данные в сокет, не дожидаясь, обработки, в плоть до ожидания пока данные попадут на n серверов и fsync случится на каждом… между этими двумя вариантами, куча промежуточных
— учтите что количество индексов и коллекций на базу ограничено определенным, хотя и довольно большим числом

CouchDB:
— совершенно уникальный подход к запросам: вы определяете все запросы заранее во view map/reduce-функциях и все объекты сразу пропускаются через них, а результат сохраняется в b-tree. Когда добавляются новые данные, то только эти данные обрабатываются. Таким образом все запросы на чтение это всегда очень быстрый поиск по уже готовым b-tree индексам, а все запросы на изменение\добавление\удаление — простое обновление этих индексов
— сплошной ACID, вплоть до crash-only, т.е. убийство процесса — является естественным (!) способом остановки, данные при этом не пострадают, таким образом у вас максимальная single-server durability
— уникальная мастер-мастер репликация с контролем ревизий, можно строить какие угодно схемы и реплицировать хоть в датацентр на другом конце света, хоть на мобильный телефон
— везде сплошной REST и доступ по простому http… можете общаться с базой прямо напрямую из джава-скрипта на клиенте, и не только, есть гибкий механизм разграничения правд доступа и валидации данных, специальные validation-функции
— design-документы, кроме того, позволяют определять шаблоны, которые будут отдавать полноценный html или rss, вообще чего вам вздумается. CouchDB — вообще одна большая мега-стейтфул машина и некий application-сервер, многие сайты и RIA можно было бы делать только на ее основе, без какого-либо middleend-а

RIAK:
— как и CouchDB сплошной RESTful HTTP
— уникальная система ссылок, формально это key-value база, но не простые эти key-value… можно объединять с помощью них, получая возможность обращения с ними, как с некими графо-подобными структурами
— мега-гибко настраиваемая система масштабирования, вы запускаете большое число серверов и данные размазываются между ними, таким способом, чтобы одновременно обеспечить высокую скорость и надежность: вы сами минимальное количество реплик необходимое для записи, и для считывания, при этом наиболее востребованные данные будут находится на большем количестве серверов и считываться быстрее, единая точка отказа — отсутствует, сервер может умереть, испортиться — ничего страшного
— система, опять же, рассчитана и в первую очередь хорошо себя проявит на большом количестве серверов, ввиду этого никто даже не побеспокоился о контроле доступа к каждой отдельной машине, т. е. весь этот парк серверов на RIAK предполагается ставить в отдельную изолированную подсеть
— при использовании платной (энтерпрайз) подписки вам также доступен прямо из коробки механизм репликации на несколько датацентров

Все это мои личные, очень краткие, исключительно впечатления от этих систем. За более подробной информацией обращайтесь, в первую очередь, к документации на сайте разработчиков. Как видите, все эти три несмотря на сходства в некоторых вещах, в то же время имеют совершенно кардинальные различия. Каждая будет наиболее предпочтительна при решении какого-то вполне определенного круга задач. То же касается, кстати, и если рядом поставить обычную RDBMS… у них тоже есть свой круг задач. Так сложилось, что с помощью RDBMS многие привыкли решать любые задачи, даже когда с виду это довольно часто выглядит как завинчивание шурупа — молотком, а иногда, как забивание гвоздей микроскопом.

Производительность и прочий satisfaction гарантированы только при правильно подборе и использовании того или иного инструмента.

Написано более трёх лет назад
VBart @VBart

Про MongoDB не упомянул легкий шардинг, GridFS, replica sets где, в случае выхода из строя мастера, слейв автоматически подхватывает на себя его функции, тем самым и обеспечивается multi-server durability. У CouchDB также есть возможность шардинга (Lounge), причем в виде отдельного модуля к nginx + twisted демона. Файлы в CouchDB можно хранить в виде простых файлов в файловой системе, но прикрепленных к объектам.

Наверняка еще что-то интересное и занимательное по каждой из этих трех баз упустил, в общем, читайте документацию, или хотя бы части Introduction, What it is и FAQ, на сайтах каждого проекта.

Написано более трёх лет назад
spry @spry Автор вопроса

Почему я предполагал/предполагаю использовать отдельно базу для хранения объектов, а отдельно связей между ними (некое подобие дерева) — потому что на данном этапе анализа мне кажется что связи между объектами будут востребованы чаще. Хотя на самом деле тут еще анализировать, анализировать и еще раз анализировать. Хотя эффект от этого топика также не стоит недооценивать :) За что и спасибо )

Написано более трёх лет назад

7 комментариев

spry @spry Автор вопроса

Есть еще одна важная деталь, которую я забыл упомянуть. Сервисов несколько, но они используют много общего контента (т.е. они как бы отдельные, но интегрированные). Впрочем, спасибо за ценный совет, несомненно это повлияет на скорость разработки. Но все-таки теорию описанную в самом вопросе, хотелось бы прояснить для себя. Потому вопрос все еще активен :)

Написано более трёх лет назад
spry @spry Автор вопроса

На долго — это на сколько? Т.е. где тот лимит

Написано более трёх лет назад
Павел Чипак @reket

Точно сказать не возможно, но судя по посещаемости на которую вы рассчитываете года два проблем быть не должно.

Написано более трёх лет назад
spry @spry Автор вопроса

Это успокаивает мои нервы относительно «Что делать»! Поделитесь знаниями о том что я писал про предположения по технологиям? Жажда знаний и все такое :)

Написано более трёх лет назад
Павел Чипак @reket

Все довольно индивидуально. Я занимался проектом у которого было 2кк просмотров в сутки и он спокойно жил на двух-ядерном пне с парочкой гигов оперативки (без кеширования запросов в БД). А так же другим, который жил на 9 не слабых серваках при количестве просмотров 5кк. Там мы пробовали с помощью DNS балансировать нагрузку, но в итоге поставили один сервер балансировщик ngnix, а он уже выбирал из n-ного количества PHP сервер. memcache на отдельном сервере, БД тоже на своих двух, статика на ещё одном. Довольно стандартные приемы. И главное — проблемы решаются по мере их поступления (или выявления узких мест не за долго до появления). Далее можно много чего делать, с БД например, можно выносить таблицы на отдельные сервера или шардить. memcache так же легко шардится. С NoSQL БД дела не имел, поэтому ничего сказать не могу, но как говорят это не панацея.

Написано более трёх лет назад
spry @spry Автор вопроса

Шардинга хотелось бы избежать, но то такое. Спасибо, информация весьма ценная!

Написано более трёх лет назад
Александр @akalend

на доло — это два три лимона пользователей,
если более пяти — нужен шардинг

Написано более трёх лет назад

12 комментариев

spry @spry Автор вопроса

Если я вас правильно понял, то под высокой доступностью имеется ввиду отказоустойчивость системы (т.е. минимальность времени простоя), под консистентностью данных — их целостность в общем виде, что кроме прочего обеспечивается резервированием этих самых данных. Если я вас правильно понял, то я не совсем себе могу представить почему производительность (если имеется ввиду количество обработанных запросов пользователей за единицу времени) не может быть совмещена с высокой доступностью. Скорее эти 2 понятия не могут быть совмещены с консистентностью данных, которые могут быть утеряны при выходе из строя выпадением ноды (ухудшение показателя надежности, и как следствие доступности), или же которые по архитектуре держатся в оперативной памяти и не были записаны на диск (обратный подход означает потерю производительности).
Для того чтобы начать с архитектуры приложения я хочу понять что и как я могу использовать, что и отображено в некоторых вопросах-уточнениях топика. Потому как я могу по незнанию теоретической базы доступных технологий могу такого «наархитектировать», что потом не реализую. Если у вас есть опыт работы в данной области, расскажите о том что вы использовали и как (если конечно не является секретом NDA и т.д.), я буду очень признателен!

Написано более трёх лет назад
spry @spry Автор вопроса

Уточняя самого себя. В вопросах было высказано предположение использовать key-value базы для хранения объектов и какой-то базы для хранения графа связей этих объектов. Это ведь повлияет довольно сильно на архитектуру взаимодействия в системе. Но к примеру в статье про архитектуру facebook было сказано что они используют MySQL для хранения пар key-value что мне кажется не логичным (я не спорю, что для них это логично, просто подана информация так, что я не вижу в чем суть такового использования).

Написано более трёх лет назад
amarao @amarao

Не совсем так. Консистентность означает, что данные на всех узлах сети непротиворечивы. (Если у вас есть репликация данных, то она либо успешая на все узлы, либо узлы считаются degradated и больше не участвуют в обслуживании клиентов).

Производительность означает, что скорость обслуживания растёт в прямой зависимости от числа узлов (очевидно противоречит первому, т.к. нужно изменения реплицировать на всех, это значит, что репликация идёт со всех, это значит, что всё ограничивается скоростью одного узла).

высокая доступность означает, что выход из строя любого количества узлов (в пределах, оговоренных ТЗ) не приводит к нарушению работы сервиса.

Одновременно эти три условия выполнить невозможно. Я сейчас затруднюсь найти источник, но это академическое исследование.

В современном ВВВ обычно жертвуют консистентностью — часть серверов может хранить устаревшие данные.

Написано более трёх лет назад
spry @spry Автор вопроса

Спасибо за пояснения, в этом понимании терминов действительно все 3 невозможны одновременно. Можно ли понимать под «часть серверов может хранить устаревшие » устаревание кеша? Т.е. если имеется хранилище (медленное) данных, где они должны быть консистентны по умолчанию, то при изменении данных в нем (запись), оно не будет мгновенно реплицировано сквозь кеши одного и более уровней, и как результат кто-то не увидит сразу какие-то изменения. И, соответственно, если кеши не в каком-то смысле managed, при большом ttl получим невообразимое безобразие. Я так полагаю что это пытаются (и может даже успешно решают), но как? При любой записи делать не-блокирующий броадкаст по всем кешам? Делать маленький ttl?

Написано более трёх лет назад
VBart @VBart

а) Кто вам сказал, что хранилище данных должно быть непременно медленным?
б) Кто вам сказал, что данные обязательно класть сперва в хранилище, потом из него в кэш?

Вы плаваете в плену каких-то непонятных представлений, вместо того, чтобы сесть и продумать логику работы от начала до конца. Так вы сами заведомо выдумываете себе не существующие еще проблемы, и пытаетесь дать им решение.

Написано более трёх лет назад
spry @spry Автор вопроса

а) Но ведь если хранилище основано на хранении данных на жестком диске, то оно скорость доступа изначально меньше, нежели у кеша, держащего данные в оперативной памяти.
б) Я этого не утверждал, вероятно вы меня не так поняли, или же я не так выразился. Как мне кажется, стоит вначале отправить данные в хранилище, но и так же спровоцировать их обновление в кеше (повторным считыванием из хранилища, или же прямой записью в кеш)

Да, вы несомненно правы, что много в чем мои представления о том, как лучше или же хуже реализовывать что-то в рамках высоконагруженного сервиса весьма далеки от реальности. Логику работы можно продумать как с учетом использования только SQL систем, так и с учетом кешей, с учетом nosql и всего остального — но мой опыт не позволяет дать на этот мой собственный вопрос более-менее конкретный ответ, потому я и стараюсь узнать больше про опыт других :) Надеюсь вы не сочтете неправильным то, что я решил попытаться узнать чужой опыт, прежде чем с головой бросится в создание архитектуры и кодописание!

Написано более трёх лет назад
VBart @VBart

Чужой опыт касается решения чужих задач. Нету такого понятия, как некий абстрактный высоконагруженный проект в вакууме. Все зависит от самого проекта, от характера запросов, от характера нагрузок, от связи между данными, соотношения между количеством обращений на чтение и запись данных, сложности запросов, и многого-многого другого.

По поводу «а». Все базы данных и так имеют свой кэш в оперативной памяти. Чтение с жесткого диска это наихудший случай, но и в кэш вы тоже все данные не сможете поместить. Вообще не имеет смысла дублировать кэш базы данных, так вы только усложняете систему, увеличиваете латентность и нерационально расходуете память.

На счет «б», учтите, что ваше «отправить данные в хранилище» не редко оказывается даже более узким местом, чем из считывание. Считывание данных как правило всегда можно так или иначе масштабировать, той же примитивной мастер-слейв репликацией, а вот с записью все обстоит гораздо сложнее.

Написано более трёх лет назад
spry @spry Автор вопроса

«некий абстрактный высоконагруженный проект в вакууме», конечно нету, но есть ведь какие-то общие подходы и т.п. Впрочем, вам не кажется что это уже некоего рода полемика о теории построения архитектуры чего-либо. При применении «примитивной мастер-слейв» репликации затык с записью происходит из-за того что получается бутылочное горлышко с одним «гейтом» для записи. Разве это есть в распределенных key-value хранилищах? (вопрос таков какой он есть — у меня нету опыта работы с nosql)

Написано более трёх лет назад
VBart @VBart

Если вы делаете мастер-слейв репликацию, то слейв потому так и называется, что он может обрабатывать от клиентов запросы только на чтение. И не важно, что у вас за хранилище.

Единственный реальный способ горизонтального масштабирования — это шардинг. Почитайте наконец теорию. А то создается впечатление, что единственное, что вы читали — это как устроены другие крупные сервисы. И попытались извлечь из этого какие-то странные догмы. Учтите, что многие другие крупные сервисы, во-первых решают свои конкретные задачи, а во-вторых часто начинали как «как умеем так и делаем» и вообще не рассчитывали на большие нагрузки. А потому, зачастую, та архитектура, которую они имеют на сегодняшний день, нередко, ужасное чудище на костылях.

Написано более трёх лет назад
Александр @akalend

про <a href='http://highloadblog.ru/articles/11.html'">шардинг

Написано более трёх лет назад
Александр @akalend

<a href='http://highloadblog.ru/articles/11.html'">шардинг

Написано более трёх лет назад
Александр @akalend

про шардинг…

Написано более трёх лет назад

6 комментариев

spry @spry Автор вопроса

«как балансировщик будет распределять нагрузку» — я то понимаю что магии не бывает, потому и был задан такой вопрос. Много где было написано — вот, балансирует, вот, на самый не нагруженный сервер. А каким образом у балансировщика обратная связь от серверов — я так и не понял, и не нашел где об этом почитать (возможно не так/не там искал).

Относительно Апача — я ведь не говорил что он и только он. Вероятно я не точно выразился, и стоило на писать «Web-сервер, способный отдавать динамический контент».

Про легкость поддержки большого парка — об этом я думал, уж поверьте, и анализировал тоже не 5 минут эту область. Мой вывод свелся к тому что ошибка на любой из нод вероятнее всего должна привести к автоматизированному разворачиванию на ней «свежей системы», уже сконфигурированой — но через обычную установку. Но сомнений в работоспособности этой структуры тоже много, вот хочу проверить, но время никак не подвернется.

По базу данных на графах — вот видите, сколь ценен ваш ответ! Я также не слышал, но предположительно я просто могу быть не в курсе. А вы не слышали — это уже говорит что вариант я выбрал 99.9% неправильный.

Написано более трёх лет назад
VBart @VBart

Базы данных на графах существуют. И я допускаю возможность их применение в том числе и в веб, если это очень-очень обосновано и удобно. Но вы говорите о горизонтальном масштабировании, при этом называете базу данных со сложностью структуры еще большей, чем у реляционных баз данных. Реляционные базы данных то не очень хорошо масштабируются, чаще всего утрачивая при этом ряд важных свойств, а как можно масштабировать еще более сложный граф, я так прямо с ходу даже и придумать не могу. Вероятно, что это и вовсе не возможно, но тут надо читать.

Написано более трёх лет назад
VBart @VBart

«Web-сервер, способный отдавать динамический контент»
А nginx не способен? Способен. Но тут вопрос даже в другом, зачем вам городить нагромождение веб-серверов, друг за другом, хотя именно http вам нужен только в самой конечной точке, непосредственно в браузер пользователя. Учтите, что сам http-протокол не является шибко эффективным и производительным, не стоит им злоупотреблять.

Написано более трёх лет назад
VBart @VBart

Вообще про графы я переборщил, при желании, можно их шардить.

Написано более трёх лет назад
spry @spry Автор вопроса

К сожалению не вспомню точно, о каких я читал (записи были успешно потеряны на другом ноутбуке), но судя по всему это были базы сходные с en.wikipedia.org/wiki/FlockDB
Вы с подобными сталкивались?

Про нагромождение вы несомненно правы, ngnix с этим также справится. Да, моя ошибка состоит в том что я под Apache подразумеваю множество серверов, которые способны отдавать динамику. Прошу прощения, написал как думал.

Написано более трёх лет назад
VBart @VBart

Мне пока не приходилось сталкиваться с задачами, где мне понадобилась бы подобная база.

Написано более трёх лет назад

6 комментариев

spry @spry Автор вопроса

Если изначально делать «абы работало», гарантированно потом можно все выбросить и переписывать. Потому я и хочу для начала хоть немного представить себе архитектуру, до того как напишу первые строки кода. Да, несомненно, переделки и доделки будут, вероятно даже изыскания на эту тему сейчас все равно не позволят избежать полной переделки, но чем правильнее выбрать/создать архитектуру сейчас, тем на более поздний период возможно отодвинуть доделки/переделки, а это экономия денег на начальном этапе. Конечно же, я не пытаюсь никого убедить что стоит изначально делать «абы-просто-работало» неправильно, но тем не менее я стараюсь придерживаться такого подхода, который не исключает создания preview или POC решения, для проверки идеи проекта как таковой.

Написано более трёх лет назад
Павел Загребелин @Zagrebelion

Есть такая вещь как «преждевременная оптимизация». Вы сейчас вбухиваете силы и время в создание масштабируемой архитектуры, вы планируете, как будете управлять полутысячей mysql серверов… а проект не выстреливает и инвестиции заканчиваются где-то между VPS и первым выделенным сервером.
Почитайте про историю top4top, очень поучительно. А ещё почитайте, в какой момент твитер начал решать проблемы с переполнением Int32 как идентификатора сообщения.

Написано более трёх лет назад
spry @spry Автор вопроса

Благодарю, почитаю обязательно! Нет, пока что не вбухиваю, только думаю и размышляю об этом, потому это все-таки не столько «преждевременная оптимизация», сколько то, что стоит не забывать что потом это возможно будет необходимость это оптимизировать. Зная это, а так же вероятные пути решения, легче учесть это сейчас и не применять методов которые сделают в дальнейшем оптимизацию еще сложнее. К примеру, если я сейчас сделаю все на одной базе, без кеширования и т.п., или попросту дорихтую какую-то CMS под свои нужды, мое имхо, я допущу огромную ошибку, поскольку потом это 100% выбросится полностью. Но тем не менее, безмерно благодарю за подсказки.

Написано более трёх лет назад
Павел Чипак @reket

Какая скорость роста планируется и сколько просмотров по расчетам будет через пол года — год?

Написано более трёх лет назад
spry @spry Автор вопроса

Ох, сложно сказать, поскольку идея самого проекта не проверялась на социуме :) Потому это будет больше в попугаях, как люди воспримут сервис. Как гмейл (проверил и ушел) или как хабр (читаю-коментю-читаю-коментю-...). Через год предполагаем по самым оптимистичным размышлениям не более 25к пользователей. Про просмотры говорить рано — причина описана выше.

Написано более трёх лет назад
Павел Чипак @reket

Уже второй раз промахиваюсь. Ответ чуть ниже :)

Написано более трёх лет назад

4 комментария

spry @spry Автор вопроса

Сейчас мне хочется выбрать одно из 3 (к этому вопросу пока что свелось все):
— SQL
— NoSQL + SQL (что для чего тоже не сильно ясно)
— NoSQL

Если бы у меня не было сомнений в первом варианте (использовать SQL и не парится) — я бы и топик не создавал то.

Написано более трёх лет назад
Александр @Awake

странные у вас вопросы в самом начале проекта

Написано более трёх лет назад
spry @spry Автор вопроса

Что вы имеете ввиду?

Написано более трёх лет назад
Георгий Хромченко @Mox

Начните с того, что позволит быстрее завершить проект и потратить меньше времени и ресурсов в разработке. Потом уже будете выбирать то, где надо будет оптимизировать. Вы не пригоните к себе миллион юзеров сразу никак.

Написано более трёх лет назад

3 комментария

spry @spry Автор вопроса

Лавинообразный не планируется (я на него не рассчитываю), но тематика самого сервиса и идей, которые в нем хотелось бы реализовать, имеет мало аналогов по которым можно было бы оценить вероятный наплыв. Т.е. я не создам второй фейсбук, это точно, но ожидания для этого проекта по посещаемости неопределенные достаточно сильно, чтобы я мог со спокойной совестью использовать xSQL (первое попавшееся) и делать все на нем. Тем более что до начала разработки у меня еще ощутимо много времени, потому я могу пока что анализировать как сектор доступных технологий, так и сопоставлять из с потребностями проекта. А так же пополнять свой запас знаний о новой для меня теме, для саморазвития :) Благодарю за информацию о нагрузке на ваш проект!

Написано более трёх лет назад
Евгений @immaculate

То, что возникла мода на NoSQL не означает, что это панацея и xSQL можно хоронить. Многие высоконагруженные сервисы работают без NoSQL (Skype использует PostgreSQL, например). Биллинги опсосов работают на SQL (это, правда, не совсем веб-сервис, хотя веб-составляющая там присутствует, но нагрузки там ого-го). SQL тоже масштабируется.

Мне кажется, что шумиха вокруг NoSQL рано или поздно уляжется, как это было почти со всеми «серебряными пулями».

Написано более трёх лет назад
Георгий Хромченко @Mox

Не надо тратить время на ожидания посетителей. Хотя бы просто стартуйте для начала — действительность может оказаться совсем другой, и делать нужно будет совсем другое.

Написано более трёх лет назад

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Memcached

Простой
Memcaсhed на виртуальном хостинге РФ — сейчас стандарт или скорее исключение?
- 1 подписчик
- 01 июл.
- 104 просмотра
1

ответ
PHP

+1 ещё

Простой
Какие подводные при хранении токенов в memcached?
- 1 подписчик
- 03 янв.
- 186 просмотров
2

ответа
Node.js

+3 ещё

Средний
Как организовать паралельную и последовательную обработку задач по условиям?
- 1 подписчик
- 07 дек. 2024
- 171 просмотр
0

ответов
Linux

+2 ещё

Простой
Как поймать, что дает высокий Load Average?
- 3 подписчика
- более года назад
- 759 просмотров
2

ответа
PHP

+2 ещё

Средний
Не работают сессии в memcached?
- 2 подписчика
- более года назад
- 168 просмотров
1

ответ
NoSQL

+2 ещё

Сложный
Как правильно разрабатывать гибкую клиент серверную архитектуру и делать клиент серверные игры на Godot?
- 1 подписчик
- более года назад
- 140 просмотров
1

ответ
PHP

+2 ещё

Средний
Какую архитектуру парсинга маркетплейса выбрать?
- 1 подписчик
- более года назад
- 334 просмотра
1

ответ
SQL

+1 ещё

Простой
Какую бд лучше выбрать?
- 1 подписчик
- более года назад
- 122 просмотра
1

ответ
PHP

+2 ещё

Простой
Как подключиться из PHP к memcached с использованием socket?
- 1 подписчик
- более года назад
- 228 просмотров
2

ответа
Highload

+1 ещё

Простой
Существует ли практика выставления приоритета запросу в очереди сообщений?
- 4 подписчика
- более года назад
- 1215 просмотров
1

ответ
Показать ещё Загружается…

Team/Tech Lead Python разработки

Greenway Global

от 250 000 до 400 000 ₽

Team Lead | Команда автоматизации закупок

SMALL

от 4 000 до 6 000 $

PHP dev (Symfony, RabbitMQ)

IT ATLAS • Москва

от 250 000 до 500 000 ₽

Забыл сказать — мне кажется что в графе связей должно быть 2 вида связей: parent<->child и owner<->property (в смысле владение). Зачем? К примеру у нас есть комментарий к статье. parent для него — статья. owner — пользователь который этот комент написал.
И еще — как решать проблему резервирования данных? К примеру одна нода из батареи key-value хранилища объектов совсем поломалась, и т.д.
Вы неправильно зашли. Вы описываете сначала технологию, в ходе которой выясняется изначальная задача. А должно быть наоборот. Ведь если вы уже определились с технологями, то зачем вам хабрасоветы?
Что за проект, какова структура, какой тип нагрузки планируется и т.д.
Прошу прощения, не сильно хорошо структурировал вопрос :)
Итак. Задача: спроектировать структуру для высоконагруженного сервиса с элементами социальной сети. То есть, имеем все обычные виды контента: статьи, фото, видео, звук, гео-координаты, комментарии и т.д.
Требования: изначально структура должна быть масштабируемая горизонтально. То есть, в начале нагрузки почти нет (на 1 физическом сервере крутятся все ноды). При возрастании поднимаются новые сервера с нодами. Да, идеальная мечта :)
Я не описываю технологии, я лишь говорю свои предположения, полученные в результате чтения и обдумывания этой информации с хабра и гугла. Хабрасоветы мне нужны чтобы понять, в правильном направлении ли я думаю, не делаю ли каких-то вопиющих архитектурных ошибок, которые вылезут потом.
Неужели больше никто ничего не скажет?

Answer 1 · 2010-12-09 00:30:03

В моем случае проект был написан «абы-как». Точнее, довольно грамотно, но без каких-либо мыслей о том, что пользователей станет много, и придется как-то масштабировать. Более-менее красивый код, куча таблиц, связанных друг-с-другом, то есть чуть ли не десятки JOIN'ов. Кэширование не использовалось вообще.

Все работало (и работает) на 3-х серверах: база PostgreSQL, nginx для статики, nginx с gunicorn для собственно приложения.

Первые два года этого хватало, но росло количество пользователей и фич, в итоге, приходится периодически садиться и переписывать куски кода: денормализовывать базу, чтобы избежать JOIN'ов и поисков в дополнительных справочных таблицах, пытаться воткнуть кэширование (самая большая головная боль — кэширование надо предусматривать в самом начале и очень-очень хорошо продумывать), и т.д. и т.п.

Просто описываю свой опыт. Мне кажется, мораль такая — не надо изначально все переусложнять. Надо думать о производительности, но не до фанатизма. Скорее всего, на первых порах хватит простого кода и одного-двух серверов. Вряд ли у вас сразу же получится вторая мордокнига по популярности. Напротив, те, кто думают, что их проект тут же захватит мир, чаще всего ошибаются.

Answer 2 · 2010-12-10 22:14:56

У вас в вопросе написано «теория», а далее идет изложение каких-то практических фактов, причем очень отдаленно. Как уже тут было выше сказано, у вас кардинально не верный подход.

Каждое конкретное архитектурное решение зависит от конкретных задач. Для этого существуют системные архитекторы, в задачи которых входит кропотливый анализ задач проекта и выбор конкретных технических решений в конкретном случае. В больших высоконагруженных и постоянно развивающихся проектах эти люди должны работать на постоянной основе, получать зарплату.

Никто вам не сможет помочь в данном случае по двум причинам:
1) Вы не изложили во всех технических подробностях и деталях свой проект. Про фотки, соц. сеть и прочее — этого не достаточно, нужно многостраничное подробное толковое описание всех требуемых функций, хотя бы… я уж не говорю, что хорошо бы конкретизировать и ресурсы, а так же прикинуть нагрузки.
2) Это не делается вот так вот на коленке. Толковый подробный анализ может занимать несколько месяцев, и разумеется бесплатно этим никто не будет заниматься. Есть некие теоретические основы, но они настолько теоретические, что вы их даже не изложили выше. Количество DNS-серверов, AA-записей, nginx-сы, php, устройство БД и т. д. — это все уже практическая область, которая сильно зависит от задачи. Вы можете реализовать все, что вы написали, и получить при этом громоздкое неповоротливое плохо масштабируемое приложение, требующее при этом огромных затрат. Исходя из того, что вы написали, могу лишь посоветовать не заниматься этим, ибо у вас изначально уже неверный подход и неверные представления. И любые практические советы, которые вам тут написали, или еще напишут — не более чем личный ничем не подкрепленный опыт, в решении собственных (а не ваших) задач, которые могут кардинально отличаться.

Могу лишь поделится советом, как делаю я при выборе конкретного технического решения, по шагам:
1) Сбор требований. Важно собрать и выявить как можно больше требований определяемых конкретной задачей по отношении к конкретному вопросу. Например, все требования к хранению данных такого-то сервиса.
2) Отобрать как можно большее количество вариантов с помощью которых задача в принципе решаема, а затем исключить из них те, которые заведомо не вписываются в требования, оставив только те, что наиболее им удовлетворяют (бывает так что всем требованиям в принципе невозможно удовлетворить).
3) Техническое решение — это всегда компромисс. Из оставшихся вариантов надо выбрать наиболее подходящий, зачастую для этого нужно провести сравнительное тестирование (причем именно свое собственное, на тестах так или иначе моделирующих вашу задачу). Если результат вас все равно не устроил, вероятно вам стоит пересмотреть требования или разбить задачу на несколько, по возможности. В любом случае, это отсылает вас к корректированию пункта 1.

Бонус трек 1: KISS
Бонус трек 2: One size never fits all

Answer 3 · 2010-12-08 16:47:57

Вы слишком заморачиваетесь… Вам на долго хватит грамотно спроектированной структуры БД и обычного кеширования.

Answer 4 · 2010-12-08 21:52:30

не с того места начинаете. Начните с архитектуры приложения. Напомню, что из трёх: высокая доступность, консистентность данных и производительность можно выбрать только два.

Answer 5 · 2010-12-11 04:04:44

Остальные ваши доводы, не касающиеся баз данных, тоже вызывают уйму вопросов. Во-первых, если у вас уже есть аппаратный балансировщик нагрузки, то зачем за ним еще nginx для того же самого? Зачем это нагромождение из http-серверов? Пропускание трафика через эту ёлку из веб-серверов скорости не только не добавляет, а наоборот. Почему бы nginx не балансировать сразу непосредственно application-сервера? Зачем вам апач? Вы же не хостингом торгуете, я так понял, где уже будет играть основная прелесть апача и его маленький дополнительный тормоз — .htaccess-файлы. Все ваши фразы про кэширование и про наборы — memcache также не имеют никакого смысла без четкого понимания, что кэшировать, когда и как, по какому принципу. Кэшировать бывает и даже вредно, и уж точно всегда трудоемко. К нему прибегают, во-первых, когда оно реально возможно, во-вторых, когда реально необходимо и способно что-то существенно ускорить.

Также вы спросили, как балансировщик будет распределять нагрузку, опять же вам решать исходя из ваших задач, по какому принципу ему работать, магии ведь тут тоже никакой не бывает. Ничего не упомянули про сессии, как будете обращаться с ними, есть ли у вас таковые?

Значительную роль в high-load проекте играет возможность легкой простой поддержки этого большого парка, легкость конфигурирования новых машин, встраивания их в пул, автоматическое выключение и переконфигурация в случае выхода из строя чего-либо, а следовательно быстрая диагностика, мониторинг. Эти вопросы вы вообще никак не охватили, однако при этом нагородили довольно сложную систему. То же вертикальное масштабирования не обязательно заведомо тупиковый и ложный путь, а для кучи проектов, будет даже предпочтительнее.

Зато упомянули некую базу данных на графах, я вообще не слышал, чтобы они имели сколь угодно широкое использование в веб-проектах, в том числе и высоконагруженных. Как вы ее собираетесь использовать и масштабировать? Тоже возникает куча вопросов.

Answer 6 · 2010-12-08 14:28:07

Если вы изначально не правильно организируете архитектуру в будущем отгребете кучу гемора. Обычно создается проект лишь бы работал, а у появлением нагрузки масштабируют и устраняют узкие места.

Answer 7 · 2010-12-11 07:19:47

Советую не морочить себе голову, а заниматься разработкой хоть чего-то, что заработает. Даже один сервер может выдержать много. Потом, когда придет время — вынесете SQL на отдельный сервак, потом поставите SQL кластер, поставите nginx c load-balance и проч, сообразите вообщем ;)

Answer 8 · 2010-12-11 19:38:06

Как мне кажется 1 сервера с головой хватит на 25k пользователей. у нас был не самый мощный сервер и 150 000+ в день там присутствовало. конечно, зависит от проекта, в моем случае — это интернет-магазин. При бОльших нагрузках — можно вынести mysql на отдельный сервер.
если этого не хватит — достаточно легко с минимальными изменениями приложения построить схему Мастер+N slave, на мастер запись, со слейвов чтения. Этого хватит на пару миллионов посетителей точно. Если же предполагается много записывать — то масштабировать нужно с помощью шардинга. Но обо всем этом можно будет подумать и позже, когда будут посетители, которые будут генерировать прибыль.

Если же планируется лавинообразный рост посетителей и не понятно каков предел посещаемости — тогда, конечно, о масштабировании нужно позаботиться заранее.

Answer 9 · 2010-12-12 14:55:54

spry @spry Автор вопроса

Кажется мне стоит почитать все — spb-borodin.livejournal.com/

Ответ написан более трёх лет назад

2 комментария

Теория: структура высоконагруженного сервиса?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт