Как удалить все повторяющиеся вариации?

Question

jslby @jslby

Программирование

Как удалить все повторяющиеся вариации?

Есть скажем список из словосочетаний:
хочу красный мяч
красный мяч хочу
где взять красный мяч
какого цвета красный мяч
красный мяч хочу найти
мяч хочу красный

Нужно очистить данный список и оставить только уникальные словосочетания, слова которых не повторяются в разных вариациях.

Т.е. из этого списка нужно получить такой:
хочу красный мяч
где взять красный мяч
какого цвета красный мяч
красный мяч хочу найти

А удалить следующие словосочетания:
красный мяч хочу - аналог: хочу красный мяч
мяч хочу красный - аналог: хочу красный мяч

Вопрос задан более трёх лет назад
260 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

3 комментария

jslby @jslby Автор вопроса

а если избежать хеши. Зачем лишнее преобразование? сделал через небольшой костыль. в цикле перебираются все словосточетания. к каждому словосочетанию применяется следующий алгоритм:
1. разбивается на слова
2. 10 раз выполняется перемешивание слов. все 10 словосочетаний пишутся в массив
3. массив уникализируется
тем самым мы получаем уникальные словосочетания. первое словосочетание, найденное в основном массиве оставляем - остальные удаляем. дело в том что это очень ресурсоёмкий процесс. особенно когда 3 000 000 словосочетаний

Написано более трёх лет назад
Владлен Грачев @gwer

jslby, я не совсем понял ваш подход, но на правильный он не похож. Во-первых, перемешивание у вас случайное? Это не есть хорошо. Тогда надо использовать перестановки (из комбинаторики). При этом для трех слов будет 6 перестановок, а для четырех — уже 24. Это ад дикий.

На самом деле, мой ответ не стоило так уж всерьез воспринимать. Если хотите что-нибудь приемлемое, то попробуйте сделать, как описано в моем ответе, только забыть про хэш, а вместо ключа использовать отсортированные слова. Так вы сохраните изначальный порядок одного из словосочетаний. Если порядок не важен вовсе, то можно и просто упорядочить и уникализировать.

Написано более трёх лет назад
dtestyk @dtestyk

можно чтобы не было коллизий взять идеальный хеш

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программирование

+4 ещё

Простой
На сколько плох мой GitHub?
- 1 подписчик
- 03 июл.
- 927 просмотров
2

ответа
Программирование

+2 ещё

Средний
Поможете собрать компьютер для запуска виртуальных машин и коддинга?
- 1 подписчик
- 02 июл.
- 611 просмотров
5

ответов
Программирование

+4 ещё

Сложный
Что делать, на QEMU всё летает, а реальный Celeron D умирает?
- 2 подписчика
- 01 июл.
- 693 просмотра
1

ответ
Программирование

+4 ещё

Простой
Выбор между изучением c++ и Golang, что изучать?
- 3 подписчика
- 09 июн.
- 1401 просмотр
10

ответов
Программирование

Простой
Как создать и использовать свою кодировку знаков?
- 1 подписчик
- 02 июн.
- 730 просмотров
4

ответа
Программирование

+1 ещё

Простой
Проект для программирования?
- 2 подписчика
- 27 апр.
- 884 просмотра
9

ответов
Программирование

Простой
Олимпиадное программирование — с чего начать?
- 1 подписчик
- 18 апр.
- 601 просмотр
2

ответа
Программирование

Простой
Как управлять/хранить изображения для UI?
- 1 подписчик
- 10 апр.
- 315 просмотров
1

ответ
Программирование

+1 ещё

Простой
Стоит ли поступать в вуз на программу по математике, если в будущем хочешь иметь профессию, связанную с программированием?
- 4 подписчика
- 07 мар.
- 3571 просмотр
7

ответов
Программирование

Простой
Как можно оптимизировать загрузку данных?
- 1 подписчик
- 14 февр.
- 406 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2015-08-22 03:22:54

Saboteur @saboteur_kiev Куратор тега Программирование

software engineer

можно отсортировать слова в алфавитном порядке, затем удалить дубликаты строк.

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2015-08-22 04:01:22

Сортировать слова — слишком просто. Можно разбить строку на слова (не забыв привести их к одному регистру). Потом каждое слово хэшировать. Затем полученные хэши складывать (как числа) и сумму использовать в качестве хэша словосочетания. Ну а дальше на выходе объект. По массиву исходных строк пробегаем в цикле, каждую строку добавляет в выходной объект, в качестве ключа используя хэш. Если такой ключ уже использовался, предыдущее значение будет перезаписано. Все выходит элементарно и красиво, однострочное тело цикла уникализации. Попутно не забыть придумать механизм борьбы с коллизиями.

Почему бы и нет?

Answer 3 · 2015-10-26 03:56:58

Сортировать слова — слишком просто.

Присваиваем каждому слову простое число.
Тогда словосочетание будет их произведением.
Удаляем словосочетания с одинаковыми значениями.
Например, используя их в качестве ключа в хешмапе.

Как удалить все повторяющиеся вариации?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт