Какими существующими инструментами можно выделять из аудио максимум музыкальной информации? Предположить темп, тональность, определить сольный инструмент или несколько голосов одновременно, с аккомпаниментом или там просто фоновый шум. Попытаться классифицировать жанр. Предположить, это скорее ударные изображают ртом, или мелодию шепеляво свистят.
Затея из присланных так-себе качеством насвистываний на микрофон телефона находить близкие по «духу» из базы произведений (которые тоже предстоит проиндексировать таким образом).
Я бы начинал с обратного - с того, по каким признакам можно определить "близкость по духу". Потому что темп и тональность вам не покажут этого. Жанр - весьма условная фигня. Ну и т.д.