Задать вопрос
@Bksz

Как выделить похожие признаки в тексте(ML)?

Добрый день.
Являюсь новичком в области ML, медленно осваиваю область, с углублением в PyTorch.

Возникла задача, в области анализа текста, к которой пока не знаю как подойти.

Суть задачи:
Есть заготовленные и размеченные фразы. Например: "осуществляется передача данных".
Если в тексте встречается фраза с похожей сутью - необходимо ее обнаружить и далее выполнить некоторый пул действий.

Проблема 1:
Во множестве произвольных текстов, суть данного примера может быть изложена по другому.
Например: "данные передаются", "передаются данные", "данные отправляются", "отправляется запрос" и т.д.

Проблема 2:
Для обучения, будет доступны 1-2 варианта фразы и я не могу пока понять, как на малом объеме можно построить обучение.
Например: только 2 фразы "осуществляется передача данных" и "передача данных осуществляется" будут мне доступны и ссылаться на один класс (idшник), к которому привязано последующее действие.

Я принял некоторые попытки на torchtext, пытаясь классифицировать, но они оказались не удачными.

Заранее благодарю вас за помощь.
  • Вопрос задан
  • 143 просмотра
Подписаться 2 Средний Комментировать
Пригласить эксперта
Ответы на вопрос 3
@dmshar
Знание PyTorch сделает из вас специалиста по PyTorch, но никак не сделает специалиста в области МL.
Что-бы изучать МL надо изучать МL, а PyTorch рассматривать всего-лишь как один (из многих) инструментов для решения (некоторых) задач в области МL и в области обработки естественных языков в частности. И не более.
Поэтому, рекомендую не прыгать через пять ступенек, а начать с начал и двигаться естественным путем:
https://www.kdnuggets.com/2020/10/roadmap-natural-...
https://www.lexalytics.com/lexablog/machine-learni...
https://towardsdatascience.com/text-classification...
https://towardsdatascience.com/natural-language-pr...
https://www.kdnuggets.com/2020/07/5-fantastic-nlp-...
https://www.amazon.com/Applied-Text-Analysis-Pytho...
Ответ написан
Комментировать
@Bksz Автор вопроса
Я разделяю вашу току зрения, поэтому смотрю курс лекций от ШАД (Курсы яндекса по ML), но всегда же хочется попробовать на практике то, о чем узнал.
Благодарю за ссылки.
Ответ написан
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Объект/субъект действия + синонимы.
Находите похожие "цепочки" через сравнения шингл и получаете кластер.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы