Как быстрее подсчитать пересечение в таблице?

Question

E N @nefedovgeka

Базы данных

Как быстрее подсчитать пересечение в таблице?

Имеем таблицу 150млн строк и 50 колонок, всего 7500млн ячеек, в одной ячейке одно слово, всего 10млн уникальных слов. Одно слово может встречаться в 200к строках.
Требуется вывести для каждого слова, набор слов с которым оно встречается(пересекается) в строке, с выводом количества таких встреч(пересечений).
Как это сделать быстрее?

Мне в голову приходит следующее: загрузить все это в БД, и по каждому уникальному домену выводить все строки где он встречается, (вывели 200к строк по 50 слов, всего 10млн слов) далее переводить все 10 млн в одну троку или столбец и отсортировать его, далее идти с начала троки или столба и считать группы одного слова и писать в базу сколько раз оно пересеклось с анализируемым и так по каждому из 10млн уникальных слов, в результате, после анализа одного слова, мы его исключаем из таблицы, так-как по нему уже все подсчитано, тем самым количество слов будет уменьшаться.

Поделитесь своим видением решения задачи.

Вопрос задан более трёх лет назад
160 просмотров

25 комментариев

Подписаться 1 Средний 25 комментариев

Adamos @Adamos

Перечитай вопрос, исправь ошибки набора.

В чем проблема читать эту кашу построчно и заполнять две нормальные таблицы - одна с уникальными словами, другая - с их "пересечениями", пока непонятно.

Написано более трёх лет назад
Akina @Akina

Требуется вывести для каждого слова, набор слов с которым оно встречается(пересекается) в строке, с выводом количества таких встреч(пересечений).

Вот первое, что хочется спросить - Вы вообще себе представляете объём вывода? 10кк уникальных слов формируют 100 триллионов пар. И к каждой надо посчитать количество. Да даже если представить, что уже всё посчитано, и надо только вывести - оно ж выводиться будет неделю! да ещё надо найти такое хранилище, в которое это можно вывести - тут о сотнях терабайт речь...

Ну а вообще - грузим в БД, нормализуем, индексируем да считаем что нужно. Тривиальная в общем задача.

Написано более трёх лет назад
E N @nefedovgeka Автор вопроса

Akina, одно слово встречается в 200к строк максимум, и пересекается в строках с 50к словами максимум, из которых 90% нет смысла даже писать так-как там пересечение незначительно по количеству.

Написано более трёх лет назад
E N @nefedovgeka Автор вопроса

Adamos, построчно выйдет очень много данных писать придется, а там часть пар нужно просто отбросить , и поэтому нужно выводить все по одному слову и обрабатывать.

Написано более трёх лет назад
Adamos @Adamos

EVGENIJ NEFEDOV, боюсь, формируя вопросы и задачи настолько невнятно, здесь вы помощи не получите.

Написано более трёх лет назад
mayton2019 @mayton2019

Комбинаторная природа данной постановки мне подсказывает что ответа мы не получим никогда. Я не делал никаких пока подсчетов но от таких поисков надо уходить сразу.

На ум пока приходит денормализация таблицы и текстовый поиск. У него другие индексы и возможно они помогут. Но классические реляционные подходы здесь умирают.

Просто то что нужно автору - не является use case реляционных систем.

С интересом буду следить за топиком. Меня всегда интересовали задачи-парадоксы.

Написано более трёх лет назад
E N @nefedovgeka Автор вопроса

mayton2019, На первый взгляд задача проста, я так ее и поставил программисту, сам я не являюсь программистом. Таблица это база данных поисковой выдачи, 150млн фраз и по каждой фразе 50 доменов из выдачи. Задача найти похожие сайты по тематике. Поисковые фразы я убрал, они не нужны, сама строка говорит что гипотетически домены схожи, остается только статистику подсчитать.
Была идея идти другим путем: к каждому домену сформировать хэш из всех фраз что у него есть и сравнивать уже хеши.

Написано более трёх лет назад
E N @nefedovgeka Автор вопроса

Adamos, Ниже описал задачу как она есть, 150млн поисковых фраз, по 50 доменов на каждую, нужно вычислить схожие по тематике сайты.

Написано более трёх лет назад
mayton2019 @mayton2019

EVGENIJ NEFEDOV, а можете приаттачить шапку этой таблицы и хотя-бы штук 10 строк.

P.S. Меня напрягают эти 50 колонок. Уж лучше бы их не было.

P.P.S. Вспомнились Марковские цепи и архиваторы. Может быть задача это не реляционная а графовая.

Написано более трёх лет назад
E N @nefedovgeka Автор вопроса

mayton2019, 50 колонок, это 50 доменов по одной поисковой фразе, конечно можно это урезать и оставить лишь первые 10, но тогда данные будут неточные, так как есть сайты которые по выдаче на 5 странице, а по ценности для пользователя первичны. Могу скинуть ссылку на базу на почту, если интересно, но там много гб.

Написано более трёх лет назад
mayton2019 @mayton2019

EVGENIJ NEFEDOV, кидайте ссылку. Но она будет адресована не лично мне а всему сообществу qna.habr. Не обещаю что я буду что-то там скачивать и изучать.

Возможно другие будут.

Написано более трёх лет назад
Adamos @Adamos

EVGENIJ NEFEDOV, "10 млн слов" - это оценочное количество доменов?
Допуская длину, скажем, до 32 символов - только словарь доменов займет 320 Мб.
Пересечения прикинуть сложнее, но что объем таких данных будет в гигабайтах - это неизбежно.
Так что, если у вас нет под рукой суперкомпьютера, обработать это целиком в памяти нереально. Придется где-то хранить, а хранение и поиск в нем на таком объеме, боюсь, займут неприличное количество времени.
Нужно искать возможности сократить обрабатываемую информацию.

Написано более трёх лет назад
E N @nefedovgeka Автор вопроса

mayton2019, думаю 27гб данных тут никто качать не будет

Написано более трёх лет назад
mayton2019 @mayton2019

EVGENIJ NEFEDOV, мне кажется что вашу бизнес-задачу нужно еще грумить. Что-то в ней... сырое. Ну тоесть вы ее поставили с точки зрения user story. Но нужен хороший техно-писатель который задаст вам больше вопросов и перепишет ее более техничным языком. Без этих уродских таблиц на 50 колонок. Которые по сути - денормализация.

По сути есть датасет. Учитывая объемы - это бигдата. И надо сделать какой-то глубокий анализ.

Написано более трёх лет назад
Adamos @Adamos

Я бы все-таки начал с составления словаря доменов. Объем посильный для обычной современной машины, а готовый отсортированный словарь позволит, во-первых, ужать эти сотни гиг до 30Гб реальной информации, а во-вторых, подсчитать, сколько раз вообще каждый домен встречается в этих записях. И уже к этим данным подходить с позиции реально стоящей задачи.

Написано более трёх лет назад
mayton2019 @mayton2019

Adamos, мне кажется, что у него таблица - разреженная. Из 50 полей будет большая часть null.

Написано более трёх лет назад
Adamos @Adamos

mayton2019, это с чего это вам так кажется? В описании задачи довольно ясно сказано, что там 50 первых сайтов, которые выдаются по определенному запросу. Полагаю, запросы тоже не случайные, и уж по полсотни-то сайтов на них находится.

Написано более трёх лет назад
mayton2019 @mayton2019

Adamos, ладно чорт с ним. Пускай будет 50.

Тогда вот такой алгоритм.
1) Строим справочнк доменов (domains_dict). Нумеруем их от 1 до 10 000 000.
2) Строим квадратную матрицу 10 на 10 миллионов счетчиков. Каждый счетчик означает - количество встреч двух доменов в одном поиске. Изначально матрица инициализирована нулями.
3) Процессим исходную таблицу (назовем ее domains_search). Ну и на каждую строку соотв - наращиваем счетчики на +1 на пересечениях. Симметрично. К примеру для (38, 9) ячейки тоже будет увеличена (9, 38).

Матрица выглядит толстой. Но это не страшно. Она - разрежённая. В основном состоит из пустоты. Домены обычно группируются по предметной области. Для таких дырявых матриц есть алгоритмы сжатого хранения. Compressed sparse row (CSR). Библиотек - полно. Любая математическая либа всегда тащит в себе такую матричку.

Ну и для количества встреч - просто берем нужную строку и вуаля. Ответ готов.

Альтернативный алгоритм - на графовой БД. Просто так мне хотелось. Чистая эстетика. Хотя оба варианта рабочие. В графах вершинами будут домены. А на рёбрах будут счетчики встреч. Граф удобен тем что его можно визуализировать и нарисовать скопления доменов.

Написано более трёх лет назад
Adamos @Adamos

mayton2019,
Строим квадратную матрицу 10 на 10 миллионов счетчиков.

1B * 10М * 10М = 100ТB. У вас суперкомпьютер под рукой?
Тем более, что настолько дырявую матрицу вообще нет смысла строить или мучить ей библиотеки. Списки индексов. Но и они получатся слишком большими для обычной персоналки.

Написано более трёх лет назад
mayton2019 @mayton2019

Adamos, давай английское пари. Спорим на бутылку Виски что я загружу туда 150 млн поисковых ответов. И мне не нужен будет вычислительный кластер. Достаточно моего AMD/Ryzen с 16Гб памяти.

Написано более трёх лет назад
Adamos @Adamos

mayton2019, так решите ТС его задачу - он вам ящик выставит.
Правда, глядя на ваши описания старательного заполнения обеих ячеек заведомо симметричной петабайтной таблицы - верится в это с трудом.

Написано более трёх лет назад
mayton2019 @mayton2019

Adamos, ну так что? Jack Daniels? Jameson?

Написано более трёх лет назад
E N @nefedovgeka Автор вопроса

А то решение что первым в голову пришло, оно не рабочее?
Берем первый домен, выводим все фразы по нему со списками доменов, считаем сколько каждый из доменов дублируется в троках, отсекаем те домены что по статистике встречаются редко (если домен А встречается 10000раз а домен Б 100 раз то зачем нам писать в базу домен Б). Далее пишем в базу те домены что остались, будет их 1000 - 10000 не больше. И так идем далее, и с каждым новым выводом доменов будет все меньше, так как предыдущий из базы нужно исключать так как по нему уже все подсчитано.
Тут главная идея чтобы читать не последовательно по списку, а брать все данные по домену и анализировать, и писать в базу только то что ценно.

Написано более трёх лет назад
Adamos @Adamos

EVGENIJ NEFEDOV, это решение придется повторять 10 миллионов раз.
И перед ним логично составить полный список доменов с частотой их появления, чтобы отбросить редкие сразу.
Раз вам их пересечения в принципе неинтересны.
Задача составления такого списка и частотного словаря - вполне тривиальна и посильна для обычной персоналки, весь объем накапливаемых данных должен поместиться в памяти, и это значительно ускорит обработку по сравнению с любыми вариантами с БД.

Написано более трёх лет назад
E N @nefedovgeka Автор вопроса

В общем, программист как-то решил задачу, утилита сперва переводит домены в цифры и потом вычисляет пересечение, в итоге кушает 32гб оперативы и работает сутки, но результат есть. Я бы наверно переводил в однобайтные символы юникода, так меньше символов понадобится, но и так работает.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Merion Academy

Базы данных с нуля

2 месяца

Далее
Skillbox

Профессия PHP-разработчик с нуля до PRO

7 месяцев

Далее
Stepik

Тестирование ПО (без проверки)

2 недели

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб.
- 82 просмотра
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб.
- 252 просмотра
2

ответа
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб.
- 186 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 200 просмотров
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт.
- 253 просмотра
4

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 327 просмотров
1

ответ
Базы данных

+2 ещё

Средний
Как автоматически откатить в CI/CD миграции при помощи Goose, если их было несколько?
- 3 подписчика
- 04 сент.
- 448 просмотров
1

ответ
SQL

+1 ещё

Простой
Какие таблицы для продуктов (и их вариантов) в БД использовать?
- 1 подписчик
- 02 сент.
- 223 просмотра
1

ответ
Базы данных

Простой
Как вы работаете с Milvus в контексте RAG-системы?
- 1 подписчик
- 25 июн.
- 95 просмотров
1

ответ
Node.js

+2 ещё

Простой
Как сделать регистрацию без слета через fs?
- 1 подписчик
- 03 июн.
- 168 просмотров
2

ответа
Показать ещё Загружается…

Fullstack-разработчик (PHP, Vue.js)

Qwintry

от 1 200 до 2 000 $

DevOps инженер

Data World • Москва

До 200 000 ₽

Системный аналитик

Data World • Москва

от 180 000 до 210 000 ₽

Перечитай вопрос, исправь ошибки набора.

В чем проблема читать эту кашу построчно и заполнять две нормальные таблицы - одна с уникальными словами, другая - с их "пересечениями", пока непонятно.
Требуется вывести для каждого слова, набор слов с которым оно встречается(пересекается) в строке, с выводом количества таких встреч(пересечений).

Вот первое, что хочется спросить - Вы вообще себе представляете объём вывода? 10кк уникальных слов формируют 100 триллионов пар. И к каждой надо посчитать количество. Да даже если представить, что уже всё посчитано, и надо только вывести - оно ж выводиться будет неделю! да ещё надо найти такое хранилище, в которое это можно вывести - тут о сотнях терабайт речь...

Ну а вообще - грузим в БД, нормализуем, индексируем да считаем что нужно. Тривиальная в общем задача.
Akina, одно слово встречается в 200к строк максимум, и пересекается в строках с 50к словами максимум, из которых 90% нет смысла даже писать так-как там пересечение незначительно по количеству.
Adamos, построчно выйдет очень много данных писать придется, а там часть пар нужно просто отбросить , и поэтому нужно выводить все по одному слову и обрабатывать.
EVGENIJ NEFEDOV, боюсь, формируя вопросы и задачи настолько невнятно, здесь вы помощи не получите.
Комбинаторная природа данной постановки мне подсказывает что ответа мы не получим никогда. Я не делал никаких пока подсчетов но от таких поисков надо уходить сразу.

На ум пока приходит денормализация таблицы и текстовый поиск. У него другие индексы и возможно они помогут. Но классические реляционные подходы здесь умирают.

Просто то что нужно автору - не является use case реляционных систем.

С интересом буду следить за топиком. Меня всегда интересовали задачи-парадоксы.
mayton2019, На первый взгляд задача проста, я так ее и поставил программисту, сам я не являюсь программистом. Таблица это база данных поисковой выдачи, 150млн фраз и по каждой фразе 50 доменов из выдачи. Задача найти похожие сайты по тематике. Поисковые фразы я убрал, они не нужны, сама строка говорит что гипотетически домены схожи, остается только статистику подсчитать.
Была идея идти другим путем: к каждому домену сформировать хэш из всех фраз что у него есть и сравнивать уже хеши.
Adamos, Ниже описал задачу как она есть, 150млн поисковых фраз, по 50 доменов на каждую, нужно вычислить схожие по тематике сайты.
EVGENIJ NEFEDOV, а можете приаттачить шапку этой таблицы и хотя-бы штук 10 строк.

P.S. Меня напрягают эти 50 колонок. Уж лучше бы их не было.

P.P.S. Вспомнились Марковские цепи и архиваторы. Может быть задача это не реляционная а графовая.
mayton2019, 50 колонок, это 50 доменов по одной поисковой фразе, конечно можно это урезать и оставить лишь первые 10, но тогда данные будут неточные, так как есть сайты которые по выдаче на 5 странице, а по ценности для пользователя первичны. Могу скинуть ссылку на базу на почту, если интересно, но там много гб.
EVGENIJ NEFEDOV, кидайте ссылку. Но она будет адресована не лично мне а всему сообществу qna.habr. Не обещаю что я буду что-то там скачивать и изучать.

Возможно другие будут.
EVGENIJ NEFEDOV, "10 млн слов" - это оценочное количество доменов?
Допуская длину, скажем, до 32 символов - только словарь доменов займет 320 Мб.
Пересечения прикинуть сложнее, но что объем таких данных будет в гигабайтах - это неизбежно.
Так что, если у вас нет под рукой суперкомпьютера, обработать это целиком в памяти нереально. Придется где-то хранить, а хранение и поиск в нем на таком объеме, боюсь, займут неприличное количество времени.
Нужно искать возможности сократить обрабатываемую информацию.
mayton2019, думаю 27гб данных тут никто качать не будет
EVGENIJ NEFEDOV, мне кажется что вашу бизнес-задачу нужно еще грумить. Что-то в ней... сырое. Ну тоесть вы ее поставили с точки зрения user story. Но нужен хороший техно-писатель который задаст вам больше вопросов и перепишет ее более техничным языком. Без этих уродских таблиц на 50 колонок. Которые по сути - денормализация.

По сути есть датасет. Учитывая объемы - это бигдата. И надо сделать какой-то глубокий анализ.
Я бы все-таки начал с составления словаря доменов. Объем посильный для обычной современной машины, а готовый отсортированный словарь позволит, во-первых, ужать эти сотни гиг до 30Гб реальной информации, а во-вторых, подсчитать, сколько раз вообще каждый домен встречается в этих записях. И уже к этим данным подходить с позиции реально стоящей задачи.
Adamos, мне кажется, что у него таблица - разреженная. Из 50 полей будет большая часть null.
mayton2019, это с чего это вам так кажется? В описании задачи довольно ясно сказано, что там 50 первых сайтов, которые выдаются по определенному запросу. Полагаю, запросы тоже не случайные, и уж по полсотни-то сайтов на них находится.
mayton2019,
Строим квадратную матрицу 10 на 10 миллионов счетчиков.

1B * 10М * 10М = 100ТB. У вас суперкомпьютер под рукой?
Тем более, что настолько дырявую матрицу вообще нет смысла строить или мучить ей библиотеки. Списки индексов. Но и они получатся слишком большими для обычной персоналки.
Adamos, давай английское пари. Спорим на бутылку Виски что я загружу туда 150 млн поисковых ответов. И мне не нужен будет вычислительный кластер. Достаточно моего AMD/Ryzen с 16Гб памяти.
mayton2019, так решите ТС его задачу - он вам ящик выставит.
Правда, глядя на ваши описания старательного заполнения обеих ячеек заведомо симметричной петабайтной таблицы - верится в это с трудом.
А то решение что первым в голову пришло, оно не рабочее?
Берем первый домен, выводим все фразы по нему со списками доменов, считаем сколько каждый из доменов дублируется в троках, отсекаем те домены что по статистике встречаются редко (если домен А встречается 10000раз а домен Б 100 раз то зачем нам писать в базу домен Б). Далее пишем в базу те домены что остались, будет их 1000 - 10000 не больше. И так идем далее, и с каждым новым выводом доменов будет все меньше, так как предыдущий из базы нужно исключать так как по нему уже все подсчитано.
Тут главная идея чтобы читать не последовательно по списку, а брать все данные по домену и анализировать, и писать в базу только то что ценно.
EVGENIJ NEFEDOV, это решение придется повторять 10 миллионов раз.
И перед ним логично составить полный список доменов с частотой их появления, чтобы отбросить редкие сразу.
Раз вам их пересечения в принципе неинтересны.
Задача составления такого списка и частотного словаря - вполне тривиальна и посильна для обычной персоналки, весь объем накапливаемых данных должен поместиться в памяти, и это значительно ускорит обработку по сравнению с любыми вариантами с БД.
В общем, программист как-то решил задачу, утилита сперва переводит домены в цифры и потом вычисляет пересечение, в итоге кушает 32гб оперативы и работает сутки, но результат есть. Я бы наверно переводил в однобайтные символы юникода, так меньше символов понадобится, но и так работает.

Answer 1 · 2022-05-31 16:21:33

Пример реализации "влоб" (синтаксис MySQL).

Структура:

CREATE TABLE test ( word0 VARCHAR(255),
                    word1 VARCHAR(255),
                    word2 VARCHAR(255),
                    word3 VARCHAR(255)
);

Запрос:

WITH 
cte1 AS (
    SELECT *, ROW_NUMBER() OVER () identity
    FROM test
),
cte2 AS (
    SELECT word0 word, identity FROM cte1 UNION ALL
    SELECT word1 word, identity FROM cte1 UNION ALL
    SELECT word2 word, identity FROM cte1 UNION ALL
    SELECT word3 word, identity FROM cte1 
)
SELECT LEAST(t1.word, t2.word), GREATEST(t1.word, t2.word), COUNT(DISTINCT identity)
FROM cte2 t1
JOIN cte2 t2 USING( identity )
WHERE t1.word > t2.word
GROUP BY 1, 2;

DEMO fiddle

Но надо чётко понимать что на заявленных объёмах запрос умрёт навсегда, вместе с сервером.

Для того, чтобы получить хоть сколько-нибудь вменяемое время обработки, надо, во-первых, выполнить нормализацию (преобразование, которое выполняют оба CTE) в статическую проиндексированную таблицу, во-вторых, получать данные не для всего массива сразу, а для достаточно узкого набора слов.

Как быстрее подсчитать пересечение в таблице?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт