Как выявить похожие словосочетания в колонке SQL таблицы?

Question

Ernest Faizullin @erniesto77

oop, python, php, js

Как выявить похожие словосочетания в колонке SQL таблицы?

В таблице есть тысячи известных музыкальных исполнителей, которые выступают в разных местах и поэтому названия одной группы могут быть по разному написаны.

Задача сгруппировать похожие названия исполнителей присвоив им group_id равный минимальному значению id исполнителя среди похожих. Для примера вот так должно быть в идеале:

id 1137 Red Hot Chili Peppers в Олимпийском - group_id 1137
id 1138 Red Hot Chili Peppers - group_id 1137
id 1139 Группа Red Hot Chili Peppers - group_id 1137
id 1140 Red Hot (Live in CA) - group_id 1137

но сейчас у многих исполнителей поле group_id пустое.

Сейчас каждый день по крону ночью скрипт проходится по точным совпадениям в названии исполнителя и группирует их. Но много исполнителей остаются не объединенными.

Подскажите на уровне алгоритма, в общих чертах, как можно выявить похожие словосочетания и объединить их в группы?

Заранее всех благодарю!

Вопрос задан более трёх лет назад
215 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
ProductStar

Профессия: Web-разработчик

8 месяцев

Далее
Skillfactory

Профессия Веб-разработчик

12 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программирование

Сложный
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 10 минут назад
- 4 просмотра
0

ответов
Linux

+4 ещё

Средний
Какой дистрибутив Linux и софт посоветуете?
- 1 подписчик
- 15 минут назад
- 12 просмотров
1

ответ
Веб-разработка

Средний
Какие есть программы/инструменты для создания веб каталога запчастей?
- 3 подписчика
- 08 дек.
- 368 просмотров
3

ответа
Веб-разработка

Простой
Ограничение в РФ, как обойти и не потерять клиентов?
- 1 подписчик
- 08 дек.
- 361 просмотр
4

ответа
SQL

Простой
Как получить последнюю запись для определённого поля?
- 1 подписчик
- 03 дек.
- 216 просмотров
2

ответа
Программирование

Простой
Какие технологии/ИИ есть для клонирования русской речи?
- 12 подписчиков
- 02 дек.
- 623 просмотра
1

ответ
JavaScript

+2 ещё

Простой
Элемент стилизации на js, как сделать чтобы не было резкой смены картинки фона?
- 1 подписчик
- 27 нояб.
- 215 просмотров
1

ответ
Веб-разработка

+1 ещё

Простой
Как включить ai ассистента в dev-tools в рф?
- 1 подписчик
- 25 нояб.
- 286 просмотров
0

ответов
Веб-разработка

+1 ещё

Простой
Подойдет ли desktop-ubuntu для разворачивания web- сервера?
- 2 подписчика
- 25 нояб.
- 633 просмотра
5

ответов
WordPress

+2 ещё

Простой
Как создать сайт с музыкой?
- 2 подписчика
- 24 нояб.
- 587 просмотров
5

ответов
Показать ещё Загружается…

Fullstack Next.js Cursor Developer

Nocodered

от 60 000 до 120 000 ₽

SEO-специалист (Сеть образовательных проектов)

Профессиональный Стандарт • Москва

До 100 000 ₽

PHP / WordPress разработчик ACF, Elementor (удаленный, свободный график)

Nomadic Soft

от 1 200 до 1 800 $

Answer 1 · 2016-08-11 22:26:35

Я бы прошелся по всей выборке сначала - нашел максимальное количество вхождений слов, в топе наверняка будет мусор аля "Группа", "Live" и прочее. В идеале их вообще почистить(или пометить как-то, например так {{live}}). Дальше по 1 слову (допустим Red), делаем выборку, если в выборке много двух и более -словных сочетаний и мало однословных - скорее всего однословные мусор, а многословные содержат как минимум двухсловное название. Далее чистая стастистика - считаем вхождения каждого слова в выборку, если много - входит в название, мало - мусор. По статистике собираем название из максимально повторяющихся слов. Более подробно уже серьезно на бумажке порисовать/почёркать и вывести стройный алгоритм.

Как выявить похожие словосочетания в колонке SQL таблицы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт