Мне кажется, тут можно без упрощений - надо только отнарудить в тексте сущность "хит" и команду "найди в интернете", но вроде нет смысла в этом, тк люди так с голосовыми ассистентами не общаются
Василий Банников, Скорее всего это не получится, и нам нужны именно самые значимые ключевые слова, с помощью которых можно понять что требует пользователь
Это неоднозначно и зависит от постановки задачи.
1) Если без учителя - почитайте про экстрактивную суммаризацию текста (она самая простая в реализации). В двух словах - вам надо будет присвоить каждому слову некий ранг и оставить только самые важные слова. Ранжировать можно разными способами. Можно провести семантический анализ текста например библиотекой stanza, построив граф предложения, потом посчитать веса слов например через textRank как при экстрактивной суммаризации текстов и оставить необходимое вам количество слов.
2) Если с учителем - нужно сделать и обучить сеть на примерах, и вам нужен будет обучающий датасет было-стало. Поскольку задача сложная, скорее всего нужно будет делать TransferLearning с обобщенной моделью типа Bert или GPT. В этом случае по идее достаточным количеством примеров будет несколько сотен.