Как определить ключевые слова — теги в списке строк?
Добрый день. Ломаю голову над решением такой задачи.
Есть таблица с видео, где названия следующего вида:
Need for Speed Rivals (Dubstep)
Попугай танцует dubstep
Mortal Kombat X-Ray and Fatality [dubstep]
Dubstep Cats Slow Motion
Т.е. названия содержат общий ключ - dubstep. В таблицы тысячи видео, и ключи могут состоять из нескольких слов. Как я понимаю, надо искать максимальное кол-во вхождений ключей. Есть ли готовый алгоритм? Как мне определять такие ключи из массива строк, для составления тегов? Инструментарий - php/mysql.
Не уверен насчёт полной автоматизации без участия человека из-за сложности автоматического создания словаря меток, однако ручным трудом можно составить список меток для последующего распознавания при разборе строк названий. У человека помимо множества "алгоритмов" есть ещё огромный словарь, который постоянно пополняется.
P.S.
Представляю во что бы превратился Тостер, если бы алгоритм сам выполнял категоризацию тем.