реализация хранения ссылок в tinyurl сервисе

Question

nikitasius @nikitasius

реализация хранения ссылок в tinyurl сервисе

Есть идея сделать ресурс (сколько их уже?) коротких ссылок, вроже tinyurl или bitly, tiny-адресс есть («звучный» домен вида ***.**), но вот с технической частью вопросы…
По порядку: использоваться он будет юзерами на форуме, мною лично, ну и тем, кому просто приглянется.
-сбор статистики будет реазизован через Google AppsEngine (сервлетом счетчиком посещений + какие ссылки популярны + будет генерироваться часть статистического контента)
-фронтом на сервере будет вкыступать nginx, который помимо общения с беком (если back будет) будет дергать данные из сервлета на ГуглАппс и вписывать его в страничку.
А вот далее начитаются вопросы…
В интернете и на Хабре есть заметка, как пользователи реализовывали подобные вещи через готовые решения или самописные, кои можно найти через поиск.
Но все они (все что я видел, а видел я мало) работают с базой. Варианты БД два:
1) не транзакционная
2) транзакционная

В первом (mysql-myisam) случае малый (до поры) расход оперативной памяти, но при выборке или инсерте таблица блочится на запись и чтение соотвественно. Во втором (mysql-innodb, оракл не ставим) случае блокировки на уровне записей, но нагрузка из-за транзакций и ситуация когда таблички и база будут разрастаться, ибо наша идея хранить все ссылки. На первый порах проект будет для «себя и друзей» и нагрузка будет если что от ботов или хацкеров.
Но хочется сделать проект, ориентированный на большую нагрузку, дабы выжать все. Например 50-100 запросов url в секунду это 4-8 миллионов в день (картинка, запостенная в одном топике на хабре, который попал в топ24, дергалась 0.5-2 раза в секунду, к примеру).
Я расчитываю на более скромные цифры (10-20 запросов в секунду), но на сервере уже есть проекты, которые кушают его ресурсы.

У меня возникла идея — что если хранить данные о ссылках в виде локальных файлов и подпапок. ext4 дает до 64к папок в подкапке. То есть вполне реально разложить /a/aa, /a/ab… где будет лежать рой файлов вида abcd.ext (ext расширения, для удобства), которые будут давать ссылку вида ***.**/aaaabcd (естественно nginx будет ее обрабатывать через regexp).

Ссылки(файлы) будут генерироваться perl на стороне nginx (front без back, perl модуль в ./configure) или back'ом в виде fastcgi-php или tomcat/jboss+jsp, и затем писаться в файл.

Не станет ли линуксу (или дисковой подсистеме) плохо от частых запросов на хард? Страничка на харде будет содержать только линк и будет доформляться nginx в соотв. с конфигом и данные от сервлета с ГуглАппс.

Если есть готовые решения, исключающие использование БД, или статьи, описывающие, что использование дисковой подсистемы не разумно — пожалуйста ткните меня ~~носом~~ линком в них.

Немного о сервере — «магазинный» сервер от Hetzner, AMD 2 ядра, 2Gb RAM & 400Gb raid-1 (soft), в будущем вероятен переход на EQ4 тариф, если текущего будет мало (хотя его хватает на все, что там висит).

Вопрос задан более трёх лет назад
3080 просмотров

Комментировать

Подписаться 6 Оценить Комментировать

Решения вопроса 1

3 комментария

Пригласить эксперта

Ответы на вопрос 7

1 комментарий

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+2 ещё

Простой
Как в OpenMediaVault переправить с портов на поддомен?
- 1 подписчик
- 14 июл.
- 115 просмотров
1

ответ
MySQL

Простой
MYSQL --skip-grant-tables?
- 1 подписчик
- 04 июл.
- 85 просмотров
1

ответ
Nginx

Средний
Можно ли сделать в конфигурации nginx редирект из URL с многократными слэшами на без слэшей?
- 2 подписчика
- 01 июл.
- 148 просмотров
2

ответа
Node.js

+1 ещё

Простой
Как запретить прямое скачивание файлов nginx?
- 1 подписчик
- 30 июн.
- 284 просмотра
2

ответа
Nginx

Простой
Как правильно настроить Nginx proxy manager?
- 1 подписчик
- 24 июн.
- 171 просмотр
1

ответ
JavaScript

+2 ещё

Простой
Как использовать js плагин mysql в сборке gulp?
- 1 подписчик
- 20 июн.
- 165 просмотров
1

ответ
Linux

+2 ещё

Средний
В какой контейнер ставить сертификат Lent`Encrypt в NGINX-front или NGINX-backend?
- 2 подписчика
- 16 июн.
- 2069 просмотров
4

ответа
Nginx

Простой
Что если ip-адрес был изменен в промежутке «valid» парамета?
- 1 подписчик
- 12 июн.
- 140 просмотров
1

ответ
Веб-разработка

+2 ещё

Простой
Может ли браузер дублировать POST запрос?
- 4 подписчика
- 11 июн.
- 1758 просмотров
2

ответа
Nginx

+1 ещё

Простой
Как правильно настроить PHP-FPM на сервере NGINX?
- 1 подписчик
- 09 июн.
- 226 просмотров
1

ответ
Показать ещё Загружается…

DBA MySQL

Marfatech

Database Administrator (MySQL / ClickHouse)

СмартУм • Лимассол

PHP Developer

Marfatech

Answer 1 · 2011-04-30 02:56:02

А что если хранить все в redis? Вроде для nginx даже модуль есть, который позволяет ему брать данные непосредственно из Redis.

Answer 2 · 2011-05-02 03:22:53

Рискую отхватить 100500 минусов от php'шников, но 100 запросов в секунду — это серьезная нагрузка лишь для связки Apache/php/SQL. Функционал несложный, делайте fastcgi на си, для хранения ссылок используйте key-value хранилище вроде memcache, и 2-3 тысячи запросов в секунду на средненьком сервере не будут казаться чем-то запредельным. Если сделать все правильно, то производительность будет ограничиваться шириной канала.

Answer 3 · 2011-05-02 11:57:56

Возможно оффтоп, но может быть вам будет интересно посмотреть как сам сервис был организован в почившем tr.im (автор [eze] почему-то спилил исходники, но народ успел нафоркать)

Answer 4 · 2011-04-30 04:02:43

То что Вы пытаетесь придумать на базе FS это эдакий «шардинг» файликов в папочке. Что мешает шардить данные в БД?
Да и от 20-30 запросов FS не приляжет.

я бы на вашем месте поступил проще — реализовал бы тот вариант хранения который для вас проще в реализации именно сейчас, при этом укрыв его реализацию за каким нибудь IStorageEngine. А в дальнейшем, если окажется что он подбирается к порогу производительности мигрировал на другой, который тоже реализовывал бы IStorageEngine. Благо к тому времени и статистика подберется, и требования будут понятны и, наверняка, будет время для тестирования и выбора подходящего варианта хранения. А перелить данные всегда возможность найдется, особенно если продумать систему которая бы выдавала «ключики» в заданных множествах, не пересекающихся между версиями.

Answer 5 · 2011-04-30 12:11:03

В порядке полуоффтопа.

Года полтора назад я всерьез размышлял над созданием аналогичного сервиса. Размышлял долго, но в конечном итоге передумал. При внешней простоте самой идеи, практическая реализация натыкается на множество подводных камней.
1. Сегмент очень конкурентен, сервисов множество. Плюс все крупнейшие «генераторы спроса» на короткие ссылки (твиттер, гугл-мапс и т.п.) уже обзавелись «придворными» сокращателями. Чтобы завоевать аудиторию, нужно предложить какую-то свою интересную специфическую фишку (например, я думал сделать супер-подробную статистику).
2. Ограниченные возможности монетизации при больших затратах на хостинг. Сервер нужен мощный, способный обрабатывать уйму запросов в день (не забываем про статистику), но крутить там рекламу по понятным причинам бесполезно. Я предполагал сделать сервис полностью платным (порядка 5 баксов в месяц), ориентировав его на «профессиональную» аудиторию — именно им нужна статистика, отчеты и пр. Это в свою очередь поднимало вопрос саппорта пользователей.
3. Весьма нетривиальное технологическое устройство внешне простого сервиса — это видно и по вашему топику.
4. Большая проблема спама.

В итоге у меня получилось, что нужны очень большие (во всяком случае для одного человека) трудовые/временные/денежные затраты при крайне неочевидных перспективах. А вдруг не выстрелит? И даже более вероятно, что не выстрелит :) В итоге этот проект был вытеснен из головы другими идеями.
Я не отговариваю — видно, что вы продумываете всё достаточно серьезно — просто мысли вслух.

Answer 6 · 2011-04-30 08:51:26

Как насчет варианта хранить все в базе (sql или nosql), а часто запрашиваемые ссылки кешировать в память (MEMORY-таблица с MySQL, memcached или хотя бы shared memory)? Статистику для кешированных адресов можно будет отслеживать при помощи дополнительной переменной в том же кэше, делая ей инкремент и периодически сбрасывая ее значение в основную базу.

Answer 7 · 2011-05-02 01:41:26

использоваться он будет юзерами на форуме, мною лично, ну и тем, кому просто приглянется.

хочется сделать проект, ориентированный на большую нагрузку, дабы выжать все.

Это архитектурная ошибка. Если хотите, чтобы заработало, сделайте как можно проще.

Answer 8 · 2017-05-03 12:26:04

Как Ваши успехи? Сделали?
Спрашиваю, потому что хочу в качестве эксперимента сделать аналогичный сервис.

реализация хранения ссылок в tinyurl сервисе

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт