Чанки: разбить и собрать, как это работает?

Question

antobra @antobra

Хранение данных

Чанки: разбить и собрать, как это работает?

Недавно для меня стало открытием, что некоторые компании, хранящие файлы юзеров, разбивают каждый файл на чанки определенного размера, ищет такие же в своей базе, если такого нет, то сохраняет, если такой есть, то отбрасывает. (чтобы не дублировать информацию). В итоге одна запись по загруженным файлам в БД имеет список ссылок на все чанки, которые все вместе создают тот самый файл, который юзер загружал.
Тогда у меня возник вопрос, который хотел задать понимающим в этом людям. Как эти чанки склеиваются перед выдачей юзеру? Ведь по логике запрос от пользователя выглядит так: запрос в БД по запрашиваемому файлу, получаем список ссылок на все чанки по кластеру/серверам и как то выдаем файл(ы). Как происходит склеивание или выдача? И происходит ли? Один сервер копируют чанки к себе и выдают склеенными?
Благодарю за время и ответ

Вопрос задан более трёх лет назад
2565 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Профессия Графический дизайнер PRO

15 месяцев

Далее
Нетология

Фронтенд-разработчик

11 месяцев

Далее

Решения вопроса 1

2 комментария

antobra @antobra Автор вопроса

Роман, благодарю за развернутый ответ. Уверен, это внесет ясность для тех, кто, как и я, будет искать ответ на этот вопрос. Насколько я понял, что такой способ хранения данных используется для не часто запрашиваемых файлов, ведь даже собрать все отрезки в рамках одного дата-центра далеко не секундное дело. Например, если разбивать файл по 64mb, вес которого 1Gb, займет десятки секунд.
Как вариант можно часто запрашиваемые файлы сохранять в кэш) и отдавать сразу, но если сервис слишком большой, то кэш становится ресурсопожирающим.
Роман, вы знаете как соблюдается приемлемая скорость выдачи файла при сборке файла? Очень интересно

Написано более трёх лет назад
d'Ivan @2ord

antobra, речь о проектировании веб-сервиса, подобного Amazon S3?
Нужно понимать, что процесс подготовки и отдачи 1 ГБ данных в любом случае может быть не быстр. Основная трата времени данных будет на этапе передачи контента по коммуникациям, а не в подготовке данных. В подготовке данных самое узкое место - получение (чтение) большого объема данных с узла хранилища.
Для видеостриминга можно почитать
https://gist.github.com/CMCDragonkai/6bfade6431e9f...
https://pdfs.semanticscholar.org/presentation/a417...
https://www.semanticscholar.org/paper/Low-latency-...

Если же нужно отдавать один и тот же статический контент разным клиентам, то в этом случае подойдёт какой-нибудь сервис CDN (CloudFlare, Amazon CloudFront и т.д.) или же Varnish/Nginx своими силами.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Юриспруденция в IT

+1 ещё

Простой
Агрегаторы мессенджеров (WhatsApp/Telegram/Instagram) в РФ: технически кто отвечает за данные?
- 1 подписчик
- 7 часов назад
- 93 просмотра
2

ответа
Хранение данных

Простой
Сервер (хранит) для хранения файлов и получение по ссылке?
- 1 подписчик
- 07 нояб.
- 246 просмотров
4

ответа
Хранение данных

+1 ещё

Средний
Масштабируемое хранилище. На основе чего?
- 1 подписчик
- 06 нояб.
- 117 просмотров
1

ответ
Хранение данных

+1 ещё

Сложный
Как сделать Service Structure рабочими в Tempo?
- 1 подписчик
- 06 нояб.
- 43 просмотра
0

ответов
Windows

+1 ещё

Простой
Что за страный файл F, как удалить?
- 5 подписчиков
- 17 сент.
- 9786 просмотров
1

ответ
Хранение данных

+3 ещё

Сложный
Как разделить хранилище на временно использование?
- 1 подписчик
- 16 сент.
- 125 просмотров
0

ответов
Linux

+3 ещё

Простой
Как лучше реализовать ФС — фото- и видеохранилище?
- 5 подписчиков
- 09 сент.
- 1148 просмотров
2

ответа
Сетевое администрирование

+2 ещё

Простой
Большая задержка в появлении файлов на сетевом диске. Как устранить проблему?
- 2 подписчика
- 13 авг.
- 415 просмотров
1

ответ
Компьютерные сети

+1 ещё

Простой
Какой есть софт для общей папки (3-5 пользователей Windows в локалке)?
- 5 подписчиков
- 10 авг.
- 4471 просмотр
12

ответов
Хранение данных

Средний
Альтернативный Linux для Huawei OceanStore 5300 V3?
- 1 подписчик
- 05 авг.
- 63 просмотра
0

ответов
Показать ещё Загружается…

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Старший инженер

Гринатом • Петрозаводск

До 80 000 ₽

Middle Backend разработчик (Rust)

Street Falcon • Москва

от 250 000 ₽

очень хорошо что Вы знаете это слово. но оно здесь звучит не очень уместно
а называется это дедупликация
Один сервер копируют чанки к себе и выдают склеенными?
именно так.

Answer 1 · 2018-09-12 21:50:18

Речь, судя по всему, о дедупликации данных.
Каждый файл можно разбить на N равных отрезков данных и 1 остаточной длины. Если пронумеровать эти отрезки последовательно, сохранив в БД номера их последовательностей с их полученных хэшами и файлами-отрезками, именованными хэшами, то для восстановления содержимого файла будет достаточно найти в БД все принадлежащие заданному файлу куски данных, считывая их соответствующие данные из файлов-отрезков. Не важно на каких узлах хранилищ хранятся эти файлы-отрезки, а важно то что есть лишь 1 сервер, склеивающий в 1 целый файл.

Дедупликация подходит в случаях частого повторения кусков контента. Допустим, много повторений может найтись среди архивов документов (дубликаты целых файлов или некоторых частей). Порой, дедупликация может дать хороший выигрыш когда одни и те же видео файлы находятся в разных уголках архива. Хотя шансов найти дубликаты кусков среди разных видео файлов очень малы.

Чанки: разбить и собрать, как это работает?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт