С помощью чего определить принадлежность текста к какой-либо теме посредством python?

Question

Gudsaf @Gudsaf

Школьник

С помощью чего определить принадлежность текста к какой-либо теме посредством python?

Представьте себе такую ситуацию: есть текст, нужно определить к какой теме из списка тем он относится.

Что есть? Есть список тем, где каждая тема представляет из себя набор слов, например:
футбол: футбол, мяч, поле, болельщик, ворота, судья, вратарь, футболист...
биатлон: биатлон, винтовка, лыжи, лыжник, биатлонист, снег, мишень...
...

Так же есть какой-то текст, который так или иначе касается тем определных ранее: то есть принадлежит какой-то теме исходя из какой-то меры, пусть от 0 до 1.

Так вот, я предполагаю, что это задача решается латентно-семантическим анализом. По этой теме есть статьи, но обычно их примеры сводятся к задачам о получении основной темы текста или же сравнения близости двух текстов. Подобной задачи как есть, не обнаруживал.

Всяк есть библиотеки для питона которые позволят решить мою проблему, и всяк есть среди нас те кто ее уже решали. Подскажите, каков был ваш опыт, чем вы руководствовались.

Вопрос задан более трёх лет назад
6245 просмотров

1 комментарий

Подписаться 17 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 7

Комментировать

3 комментария

Dimonchik @dimonchik2013

гм

Написано более трёх лет назад
Gudsaf @Gudsaf Автор вопроса

если это сервис, то там всяк есть апи, значит есть и ограничение на это апи.. или я думаю не верно?

Написано более трёх лет назад
Алексей Черемисин @leahch

Gudsaf, это что-то типа nosql базы данных, ориентированная на полнотекстовый поиск, одной из фич которой является реверсивный поиск по запросам. Ограничения конечно же есть, так как есть язык этих самых запросов, доступ по http на основе json. Развернуть - 5 минут!

Написано более трёх лет назад

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 174 просмотра
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 118 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 101 просмотр
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 98 просмотров
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 243 просмотра
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 280 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 175 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 152 просмотра
1

ответ
Хранение данных

+1 ещё

Сложный
Как сделать Service Structure рабочими в Tempo?
- 1 подписчик
- 06 нояб.
- 46 просмотров
0

ответов
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 275 просмотров
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

А что у вас является эталоном при подсчёте меры? Каким признакам должен удовлетворять текст, чтобы с мерой 1 он считался текстом о футболе?
Принадлежность текста к теме - это не какое-то объективное внутреннее свойство текста, а некая внешняя оценка по каким-то выбранным критериям. И как выбрать критерии - это отдельная задача, для которой нет единственного решения, выбор будет зависеть от конечной цели классификации.

Answer 1 · 2017-11-09 10:11:49

kzoper @kzoper

www.nltk.org
scikit-learn.org

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2017-11-09 10:20:34

1) Задача классификации (с учителем), либо кластеризация (без учителя)
2) Метод мешка слов
3) scikit-learn.org

Answer 3 · 2017-11-09 14:58:43

Ну, не совсем на притоне, но есть - Elasticsearch и его percolator query - https://www.elastic.co/guide/en/elasticsearch/refe...

Смысл всего такой - у нас есть ES и есть индекс с нашими запросами "футбол: футбол, мяч, поле, болельщик, ворота, судья, вратарь, футболист"
Мы берем документ и спрашиваем у ES через percolator query каким запросам этот документ соответствует. В ответ ES вернет наиболее релевантные запросы.

Общаться с ES можно через питон.

Мы так систематизируем товары по каталогам.

Answer 4 · 2017-11-09 17:31:04

Полный пример как это сделать в scikit-learn scikit-learn.org/stable/tutorial/text_analytics/wo...

Гуглить machine learning text classification, text categorization.

Answer 5 · 2017-11-09 11:55:26

Андрей Федосеев @itlen

LSI и поиск на python

Ответ написан более трёх лет назад

Комментировать

Answer 6 · 2017-11-09 22:10:03

если совсем в лоб:

1) строгаешь существительные из предложений (Noun, есть еще main Noun)
2) затем Counter.most_common() подсчитываешь их во всем тексте и берешь первые N
3) и косинусная близость этих N с существительными темы

Answer 7 · 2017-11-10 08:37:38

В кластеризации текста еще есть библиотечка BigARTM от Воронцова, которая позволяет "выращивать" кластеры вокруг наборов предварительно заданных слов.

С помощью чего определить принадлежность текста к какой-либо теме посредством python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт