Каким образом получить такой набор? Какие методы использовать?

Question

namelessanonymous @namelessanonymous

Каким образом получить такой набор? Какие методы использовать?

Имеется набор документов с различными наборами слов. Как можно из этого набора документов получить такой набор документов, чтобы количество документов было минимальным, а количество разнообразных слов во всех документах набора было максимальным?
Какие математические модели или алгоритмы существуют для решения подобной задачи?

Вопрос задан более трёх лет назад
115 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Алгоритмы и структуры данных

4 месяца

Далее
Skillbox

Алгоритмы и структуры данных для разработчиков

3 месяца

Далее
Stepik

Алгоритмы и структуры данных

1 неделя

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт.
- 266 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт.
- 179 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 200 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт.
- 170 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 327 просмотров
1

ответ
Алгоритмы

+1 ещё

Простой
Как отконвертировать 3D-меш в наклонные треугольники?
- 2 подписчика
- 02 окт.
- 177 просмотров
1

ответ
Алгоритмы

Сложный
Поиск оптимального маршрута с наимешьшим влиянием на цену в сети ethereum?
- 1 подписчик
- 29 авг.
- 153 просмотра
2

ответа
Алгоритмы

Простой
Как можно еще уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 22 авг.
- 243 просмотра
2

ответа
Алгоритмы

Простой
Как можно уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 19 авг.
- 191 просмотр
2

ответа
Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 313 просмотров
3

ответа
Показать ещё Загружается…

Разработчик Blender / 3D Technical Artist

Академия Компьютерных Технологий и Дизайна

от 94 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Зависит от того, нужна ли оптимизация и какая: память, процессор, сеть (если на разных компах). Оптимизация также зависит от того, где какие порядки, сколько в среднем ожидается слов на документ, сколько может быть документов и сколько всего слов примерно. А также важно понимать, нужно ли вам идеальное решение (математически точное), или хватит близкого к идеальному.

Кроме того, не ясно, как соотносятся максимум и минимум. Что лучше: а) 2 документа, в которых 10 слов, или б) 3 документа, в которых 15 слов? В первом меньше документов, а во втором больше слов. Везде свои есть плюсы и минусы. Так что не ясно, по какому критерию сравнивать.

Answer 1 · 2021-03-11 12:11:52

Возможно жадный алгоритм подойдет.
Например выбираем документ с самым большим числом уникальных слов.
Затем выбираем документ с самым большим числом уникальных слов непокрытых предыдущим.
И т.д. повторяем до тех пор пока не покроем все слова.

Тут только предварительно нужно построить для каждого документа словарь, а это может быть не дешево,
хотя скорее всего это в любом случае нужно будет сделать, чтобы составить общий словарь который нужно покрыть.

Answer 2 · 2021-03-10 21:57:31

Это похоже на задачу set cover. Легких алгоритмов тут нет. Только полный перебор с отсечениями. Еще всякие методы отжига и эволюционные алгоритмы могут найти хорошее решение. Ну и, задачу можно переформулировать в виде integer linear programming и решать какой-то из существующих библиотек.

Если количество слов маленькое (типа 25-30), то можно решать динамическим программированием по маске покрытых слов.

Если вам нужно не оптимальное решение, а достаточно хорошее, то могут сработать всякие жадности, типа брать документ, который покрывает наибольшее количество непокрытых слов.

Каким образом получить такой набор? Какие методы использовать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт