Алгоритм для кластеризации документов из нескольких частей?

Question

Jaitl @Jaitl

Алгоритм для кластеризации документов из нескольких частей?

Привет!
Мне нужно кластеризировать документы, состоящие из нескольких частей, контента, заголовка, городов и т.д.
Примерная модель документа: Doc(content: String, Title: String, geo: array[String], persons: array[String], ...)
Текстовые поля будут представлены в виде векторов.
Желательно что бы каждой части можно было указать вес.
Какой алгоритм кластеризации можно использовать? есть ли реализации подобных алгоритмов на Python?

Вопрос задан более трёх лет назад
455 просмотров

1 комментарий

Подписаться 4 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Чтобы сделать несколько запросов к OpenAI серверу из Python, нужно каждый раз вызывать client.chat.completions.create?
- 1 подписчик
- 21 дек.
- 101 просмотр
2

ответа
Python

Простой
Какой отлдачик для Python поставить новичку?
- 1 подписчик
- 20 дек.
- 144 просмотра
2

ответа
Python

Простой
Существует ли менеджер виртуальных окружений для python, который хранит все пакеты в одном месте?
- 3 подписчика
- 18 дек.
- 203 просмотра
1

ответ
Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 16 дек.
- 220 просмотров
1

ответ
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 16 дек.
- 77 просмотров
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 200 просмотров
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 241 просмотр
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 252 просмотра
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 240 просмотров
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Backend Developer

Hard Bootstrapping LLC. • Санкт-Петербург

от 175 000 до 350 000 ₽

Задание написано довольно расплывчато. Стоит описать по каким критериям нужно производить кластеризацию.

Answer 1 · 2016-09-08 10:30:03

fastText

... Facebook объявила об открытии исходных текстов библиотеки fastText, предоставляющей средства для классификации текста с использованием методов машинного обучения

(заметим: классификации, а не кластеризации)
Классификация - это кода классы заранее известны и к ним нужно отнести все классифицируемые элементы.
Каждый документ содержит взаимосвязанные по смыслу данные.

Под понятием "вектора" в машинном обучении прежде всего нужно понимать набор каких признаков представляют те или иные данные.

Сперва нужно произвести нормализацию и фильтрацию данных. А текст - это сырые данные, негодные для машинного обучения, ибо машина - не человек, которые понимает значения слов (опять же, обычно не более 2-х разных языков).

Алгоритм для кластеризации документов из нескольких частей?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт