Как удалить неявные дубли?

Question

jogihif943 @jogihif943

C#

Как удалить неявные дубли?

На входе файл с N строк (может быть 10-100к и более)
Задача удалить неявные дубли по полному совпадению словоформы (слова, у которых изменен порядок слов, но не изменены никакие окончания и прочее, например, купить яблоко в москве | яблоко в москве купить)
Сделал вариант с перебором всех перестановок слов для всего массива, но работает такой вариант крайне долго (с файлом на 200к строк ~40 дней в 1 поток)
Была идея сделать через создание массива с массивами (разделить каждую строку по пробелу и отсортировать по алфавиту от А до Я + хеширование), но не смог это реализовать
Вопрос: как это можно реализовать наиболее быстрым способом в 1 поток?
p.s. дубли удалять не нужно, по индексу в массиве заменить на "дубль"

Вопрос задан более трёх лет назад
99 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

OTUS

C# Developer. Professional

6 месяцев

Далее
Ulearn.me

Основы программирования на примере C#. Часть 1

1 неделя

Далее
Ulearn.me

Основы программирования на примере C#. Часть 2

1 неделя

Далее

Решения вопроса 1

3 комментария

jogihif943 @jogihif943 Автор вопроса

но если я просто разделю по пробелу и занесу каждое слово в таблицу, то фраза "машина" будет дублем для фразы "машина в горах", потому что слово "машина" уже будет в таблице
мне бы как-то надо делать проверку целиком фраз, а не отдельных слов, потому что в строках на входе могут быть как предложения, так и однословники

Написано более трёх лет назад
Василий Банников @vabka

jogihif943, нет, не будет.
У тебя будет набор слов ["машина"] и набор ["горах", "на", "машина"], которые не равны.

Написано более трёх лет назад
jogihif943 @jogihif943 Автор вопроса

Василий Банников, благодарю

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

+1 ещё

Простой
Почему не работает обратная привязка в Avalonia UI?
- 1 подписчик
- 22 окт.
- 73 просмотра
1

ответ
C#

+1 ещё

Средний
При каких входных данных моя программа работает неверно и как мне научиться самому это понимать? Как научиться искать ошибки?
- 2 подписчика
- 20 окт.
- 268 просмотров
3

ответа
C#

+2 ещё

Простой
Как универсализировать обычный ViewList в WPF C# XAML?
- 1 подписчик
- 20 окт.
- 52 просмотра
2

ответа
C#

+1 ещё

Простой
Как проверить, наследует ли объект в обобщённом методе?
- 1 подписчик
- 16 окт.
- 84 просмотра
1

ответ
C#

+1 ещё

Средний
Пермач после авторизации [WTelegram,TDLib] как исправить?
- 1 подписчик
- 10 окт.
- 280 просмотров
0

ответов
C#

+1 ещё

Простой
Как в VSCode для C#-кода сгенерировать или посмотреть только структуру?
- 1 подписчик
- 01 окт.
- 129 просмотров
1

ответ
C#

+1 ещё

Простой
Почему VSCode панель Outline view не показывает классы и функции из C# кода?
- 1 подписчик
- 01 окт.
- 124 просмотра
1

ответ
C#

+1 ещё

Простой
Как в EF Core 9 произвести поиск совпадений на русском и без учета регистра?
- 1 подписчик
- 01 окт.
- 114 просмотров
0

ответов
C#

+2 ещё

Средний
Как включить множество опций публикации в Visual Studio 2022?
- 1 подписчик
- 30 сент.
- 73 просмотра
1

ответ
JavaScript

+2 ещё

Простой
На сколько практично разделять логику загрузки данных?
- 4 подписчика
- 16 сент.
- 1214 просмотров
2

ответа
Показать ещё Загружается…

Разработчик C#

Abc staff • Москва

До 220 000 ₽

Fullstack тестировщик C#

ITFB Group • Москва

от 200 000 до 300 000 ₽

C# WinForms .Net разработчик

Ляпунов и Резниченко • Санкт-Петербург

от 350 000 ₽

Answer 1 · 2022-09-26 13:39:36

Сделал вариант с перебором всех перестановок слов для всего массива, но работает такой вариант крайне долго (с файлом на 200к строк ~40 дней в 1 поток)

Тебе не нужно делать полные перестановки.
Просто разделяй по пробелу и складывай в HashSet

Как удалить неявные дубли?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт