Как удалить неявные дубли?

Question

jogihif943 @jogihif943

C#

Как удалить неявные дубли?

На входе файл с N строк (может быть 10-100к и более)
Задача удалить неявные дубли по полному совпадению словоформы (слова, у которых изменен порядок слов, но не изменены никакие окончания и прочее, например, купить яблоко в москве | яблоко в москве купить)
Сделал вариант с перебором всех перестановок слов для всего массива, но работает такой вариант крайне долго (с файлом на 200к строк ~40 дней в 1 поток)
Была идея сделать через создание массива с массивами (разделить каждую строку по пробелу и отсортировать по алфавиту от А до Я + хеширование), но не смог это реализовать
Вопрос: как это можно реализовать наиболее быстрым способом в 1 поток?
p.s. дубли удалять не нужно, по индексу в массиве заменить на "дубль"

Вопрос задан более трёх лет назад
102 просмотра

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

OTUS

C# Developer. Professional

6 месяцев

Далее
Ulearn.me

Основы программирования на примере C#. Часть 1

1 неделя

Далее
Software-testing.ru

Программирование на C# для тестировщиков

10 недель

Далее

Решения вопроса 1

3 комментария

jogihif943 @jogihif943 Автор вопроса

но если я просто разделю по пробелу и занесу каждое слово в таблицу, то фраза "машина" будет дублем для фразы "машина в горах", потому что слово "машина" уже будет в таблице
мне бы как-то надо делать проверку целиком фраз, а не отдельных слов, потому что в строках на входе могут быть как предложения, так и однословники

Написано более трёх лет назад
Василий Банников @vabka

jogihif943, нет, не будет.
У тебя будет набор слов ["машина"] и набор ["горах", "на", "машина"], которые не равны.

Написано более трёх лет назад
jogihif943 @jogihif943 Автор вопроса

Василий Банников, благодарю

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

+1 ещё

Простой
Как создать копию предмета и добавить ему компонент?
- 1 подписчик
- 08 нояб.
- 109 просмотров
1

ответ
C#

+1 ещё

Простой
Как сделать постраничную навигацию в Avalonia UI MVVM?
- 2 подписчика
- 08 нояб.
- 83 просмотра
0

ответов
C#

Простой
Почему одинаковые делегаты работают по разному, В 10 Раз разница в скорости?
- 1 подписчик
- 27 окт.
- 267 просмотров
0

ответов
C#

+1 ещё

Простой
Почему не работает обратная привязка в Avalonia UI?
- 1 подписчик
- 22 окт.
- 134 просмотра
1

ответ
C#

+1 ещё

Средний
При каких входных данных моя программа работает неверно и как мне научиться самому это понимать? Как научиться искать ошибки?
- 2 подписчика
- 20 окт.
- 348 просмотров
3

ответа
C#

+2 ещё

Простой
Как универсализировать обычный ViewList в WPF C# XAML?
- 1 подписчик
- 20 окт.
- 85 просмотров
2

ответа
C#

+1 ещё

Простой
Как проверить, наследует ли объект в обобщённом методе?
- 1 подписчик
- 16 окт.
- 111 просмотров
1

ответ
C#

+1 ещё

Средний
Пермач после авторизации [WTelegram,TDLib] как исправить?
- 1 подписчик
- 10 окт.
- 314 просмотров
0

ответов
C#

+1 ещё

Простой
Как в VSCode для C#-кода сгенерировать или посмотреть только структуру?
- 1 подписчик
- 01 окт.
- 140 просмотров
1

ответ
C#

+1 ещё

Простой
Почему VSCode панель Outline view не показывает классы и функции из C# кода?
- 1 подписчик
- 01 окт.
- 144 просмотра
1

ответ
Показать ещё Загружается…

C# WinForms .Net разработчик

Ляпунов и Резниченко • Санкт-Петербург

от 350 000 ₽

QA automation (C#)

Альфа-Банк • Москва

от 200 000 до 350 000 ₽

QA Automation Engineer (C#)

Centicore Group • Москва

До 300 000 ₽

Answer 1 · 2022-09-26 13:39:36

Сделал вариант с перебором всех перестановок слов для всего массива, но работает такой вариант крайне долго (с файлом на 200к строк ~40 дней в 1 поток)

Тебе не нужно делать полные перестановки.
Просто разделяй по пробелу и складывай в HashSet

Как удалить неявные дубли?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт