Ну что же...после долгих исследований, могу сказать, что устроен он очень сложно. Во-первых, поддерживаются разные форматы (hls, opus, chromecast, http). Данные из запроса /media/from/to/ все-таки преобразуются на стороне amazon в range заголовки. Аудио данные тщательно парсятся, учитывая стандарты кодека. Если это MP3, то парсится каждый фрейм и организуется безшовное воспроизведение. Всё кэшируется на стороне клиента.
Подобное open-source решение нашел только одно и только для MP3 формата: Phonograph.js