В структуре таблицы «wc_lyricsnet_songs» не понял, где собственно сами тексты песен. Но видимо, они есть, иначе не интересно.
Сначала можно разобраться, что же, собственно, в этих данных содержится, и какие метрики от этих данных можно вычислять:
Исполнитель:
Данные:
— Название исполнителя
Метрики:
— Число зарегистрированных альбомов
— Число зарегистрированных песен
— Средние/максимальные/etc значения метрик альбомов и песен исполнителя
Альбом:
Данные:
— Название альбома
— Год выпуска альбома
Метрики:
— Число песен в альбоме
— Длинна названия альбома
— Количество слов в названии альбома
— Год выпуска альбома
— Средние/максимальные/etc значения метрик песен в альбоме
Песня:
Данные:
— Название
— Текст
Метрики:
— Длина названия песни
— Количество слов в названии песни
— Длинна текста
— Число слов в тексте
— Число уникальных слов в тексте
— Среднее число повторений слов в тексте
Потом подумать, что из всего этого можно извлечь:
а)
Для всей базы или для выборок по метрикам посчитать частотные словари по текстовым данным. Выявить популярные шаблоны в названиях {исполнителей/альбомов/песен} — сделать свой генератор названий.
б)
Искать экстремальные значения метрик (не забывая про нормирование).
Например, самые многословные исполнители. Или авторы самых ёмких текстов.
в)
Нарисовать сетку «метрика х метрика». Посмотреть, получается ли что-нибудь интересное на пересечениях.
Например, [Год выпуска альбома] x [Число уникальных слов в тексте]. За каждый год (выборка по метрике 1) берём среднее значение метрики 2, делим на общее число зарегистрированных песен за этот год (размер выборки). Строим график и проверяем, становятся ли тексты в среднем более примитивными.
г)
Частотные словари для выборок. Нарисовать сетку «метрика х данные». Посмотреть, получается ли что-нибудь интересное на пересечениях. Посчитать частотные словари по данным из выборок на основе метрики. Сравнить результаты и найти отклонения.
Например, [Год выпуска альбома] х [Название песни]. Удастся ли так проследить за музыкальной модой?
При использовании внешних данных (частотный словарь английского языка, lastfm и т.д.) можно ещё всяких метрик напридумывать. Не всегда тривиальных, правда. Но более перспективных. Например:
— «Простота текста» — насколько он состоит из частых или, наоборот, редких слов. Это круче, чем число уникальных слов в тексте.
— Отношение исполнителя к тому или иному муз. направлению(жанру). Имея статистические данные по ярким представителям жанра можно попробовать сделать свою распознавалку жанра для произвольных текстов, например.
Идея, надеюсь, понятна. Можно продолжить мозговой штурм и эксперименты, чтобы придумать новые и комбинированные метрики, найти откуда извлечь дополнительные данные и т.д…