Массовое сравнение сток, поиск пересечений, каким инструментом воспользоваться?

Question

svfolder2021 @svfolder2021

Массовое сравнение сток, поиск пересечений, каким инструментом воспользоваться?

Есть некое множество слов, пусть это будет 100 000 слов.

Есть некое количество текстов, пусть будет 150 000 текстов, пусть среднее количество слов в каждом тексте будет 50.

Есть программа которая ищет в цикле каждое слово из первого множества, сейчас это все в массивах и просто сравнивается между собой, на что уходит очень много времени.

Есть ли такие системы которые могут выполнить такие проверки с большим количеством параллельных потоков или еще как то?

Какие идеи пока что посетили меня. Положить первое множество в таблицу MySQL, и навесить ключ на поле с этим множеством.

Далее положить во временную таблицу InMemory все слова из текстов и потом соеденить их через INNER JOIN, но у нас в каждом тексте может быть несколько совпадений с первым множеством и как при этом отделить одно от другого мне не совсем понятно.

Может можно как то использовать Elasticsearch, Redis и тому подобные системы?

Вопрос задан более года назад
104 просмотра

1 комментарий

Подписаться 1 Сложный 1 комментарий

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

2 комментария

4 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

C#

+1 ещё

Простой
Как лучше реализовать обновление данных о процессах, используя winforms c#?
- 1 подписчик
- час назад
- 21 просмотр
0

ответов
C#

+1 ещё

Средний
Отклик при соприкосновении с коллайдером 2D?
- 1 подписчик
- 6 часов назад
- 13 просмотров
1

ответ
C#

+1 ещё

Простой
Почему коллайдеры деревьев на террайне съезжают?
- 1 подписчик
- 7 часов назад
- 18 просмотров
1

ответ
C#

+1 ещё

Простой
Почему выводится type mismatch при загрузке файла анимации в юнити?
- 1 подписчик
- 11 часов назад
- 60 просмотров
1

ответ
C#

+2 ещё

Простой
Как правильно обучаться в начале пути?
- 1 подписчик
- 13 часов назад
- 106 просмотров
1

ответ
C#

+2 ещё

Простой
Почему получается подключить Core в Dockerfile?
- 3 подписчика
- вчера
- 658 просмотров
3

ответа
MySQL

+1 ещё

Простой
Как извлечь топ 15 очков из таблицы чтобы игроки не дублировались?
- 1 подписчик
- вчера
- 98 просмотров
1

ответ
C#

Простой
Как из файла txt записать в Dictionary?
- 1 подписчик
- вчера
- 94 просмотра
1

ответ
Python

+2 ещё

Простой
Как транслировать аудио в микрофон, py, c#, c++?
- 1 подписчик
- вчера
- 156 просмотров
3

ответа
C#

+1 ещё

Простой
OpenCL в C# — какими средствами и где взять HelloWorld?
- 1 подписчик
- вчера
- 57 просмотров
0

ответов
Показать ещё Загружается…

Программист C++ Builder / базы данных MySQL

RU Electronics • Москва

от 180 000 до 200 000 ₽

Инженер технической поддержки с английским языком и знанием PHP/MySQL

IT-Aces

от 100 000 до 150 000 ₽

PHP FullStack Developer (Middle+)

ГК «Талант» • Сочи

от 100 000 до 200 000 ₽

Анимация логотипа

24 апр. 2024, в 00:08

20000 руб./за проект

Разработка дизайна раздела «Статьи» на сайте «Мир отходов»

23 апр. 2024, в 23:01

10000 руб./за проект

Дизайн личного кабинета (клиентская часть)

23 апр. 2024, в 22:37

500 руб./в час

не надо inner join, надо union, доп колонка в первой таблице 1, во второй -1, затем обернуть в group by и вывести having Sum(col) = 0 или !=0 в зависимости от того, что надо.

Answer 1 · 2022-05-27 16:58:40

Просто воспользуйтесь алгоритмом ахо-корасика. У вас очень мало данных. Обработка их всех займет не более 100 мс на среднем компьютере в один поток.

Существующих готовых программ я не знаю, но реализацию алгоритма в библиотеках или на гитхабе я думаю вы найти сможете запросто.

Answer 2 · 2022-05-27 16:41:12

примерно объёмы инфы:
100к слов (по 10 символов) в «первом множестве» — это примерно 1Mb
150к текстов по 50 слов по 10 символов в слове это 75Mb
Т.е. всё весьма компактно.

Искать наверное стоит программой, в оперативке.

Сначала проиндексировать тексты. Составить словарь, где ключ – слово, значение – массив индексов текстов, где оно встречается.

Затем искать среди ключей этого словаря слова из первого множества.

Можно ещё сократить/ускорить, если работать не с самими словами, а только с целыми индексами. Любое слово класть в Set (где значения уникальны) и далее работать с индексом слова в этом наборе.

Answer 3 · 2022-05-30 13:04:42

Коробочное решение - это библиотеки обработки текста Apache Lucene, Sphinx. Но их нужно программировать - следовательно вам надо искать разработчика.

ElasticSearch/Solr (под капотом это тот-же Lucene) - вариант но вам надо будет его конфигурировать и тщательно подбирать настройки Analyzer чтоб не получать ложно-позитивных срабатываний. Возможно в дефолтном варианте он слишком умный и делает стемминг там где не надо.

Если самостоятельно программировать то мы имеем такую complexity : 100 000 слов проверить в 150 текстах - это примерно 15 миллиардов тривиальных проверок. Типа поиска строки в строке. Хочется от этого уйти. Поэтому надо искать какие-то структуры данных работающие на exists(..). Например Фильтры Блума. При 150 тыщ элементов он будет достаточно компактен. Или сортирующие и хеширующие структуры (R&B Trees). Тогда вместо 15 млрд мы сведем к 100 либо к 150 тыс циклов по одному из измерений как будет выбрано.

Массовое сравнение сток, поиск пересечений, каким инструментом воспользоваться?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт