Выборка похожих результатов / MySQL

Question

Kir Shatrov @RazoR_Empire

PHP
MySQL

Выборка похожих результатов / MySQL

Есть база с примерно таким содержанием:

Пупкин Вася

Пупкин В.

Вася Пупкин

Фамилькин Л.

Людвиг Аристархович Фамилькин

Фамилькин

Держиморда Кирилл

Надо выбрать и посчитать количество похожих записей средствами PHP/MySQL.
Например:

Пупкин - 3 шт.

Фамилькин - 3 шт.

Держиморда - 1 шт.

Как реализовать?

Вопрос задан более трёх лет назад
3465 просмотров

8 комментариев

Подписаться 7 Оценить 8 комментариев

Александр Белугин @unkinddragon

А «Вася Пупкин» может быть?

Написано более трёх лет назад
Kir Shatrov @RazoR_Empire Автор вопроса

Да, может. Сейчас добавлю в образец.

Написано более трёх лет назад
JeanLouis @JeanLouis

Вы хотите посчитать количество одинаковых слов?

Написано более трёх лет назад
Kir Shatrov @RazoR_Empire Автор вопроса

Получается, что да

Написано более трёх лет назад
JeanLouis @JeanLouis

Тогда лучше всего нормализовать данные, разбив на слова. Иначе это будет очень медленный запрос.

Написано более трёх лет назад
TimTowdy @TimTowdy

Чтоб посчитать количество одинаковых слов MySQL вообще не нужен. Все слова кидаем в файл/память, создаём хеш слов, проходим по каждому слову, делаем $words[$word]+=1. Или MapReduce если памяти не хватает.

Написано более трёх лет назад
JeanLouis @JeanLouis

Все это может сделать MySQL за вас

Написано более трёх лет назад
TimTowdy @TimTowdy

Только если данные перед этим подготовить — сделать нормализацию. MySQL может и MD5 посчитать, это ж не значит что его стоит для этого использовать. Нужно не задачу подстраивать под инструменты, а инструменты под задачу.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

3 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 134 просмотра
1

ответ
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 225 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 481 просмотр
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 257 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 203 просмотра
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 162 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2484 просмотра
8

ответов
MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 136 просмотров
1

ответ
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 353 просмотра
6

ответов
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 119 просмотров
1

ответ
Показать ещё Загружается…

Да, может. Сейчас добавлю в образец.
Вы хотите посчитать количество одинаковых слов?
Тогда лучше всего нормализовать данные, разбив на слова. Иначе это будет очень медленный запрос.
Чтоб посчитать количество одинаковых слов MySQL вообще не нужен. Все слова кидаем в файл/память, создаём хеш слов, проходим по каждому слову, делаем $words[$word]+=1. Или MapReduce если памяти не хватает.
Только если данные перед этим подготовить — сделать нормализацию. MySQL может и MD5 посчитать, это ж не значит что его стоит для этого использовать. Нужно не задачу подстраивать под инструменты, а инструменты под задачу.

Answer 1 · 2010-12-22 20:58:09

Вы сначала определитесь как вы будете выделять кластера. Если в ваш список добавить «Людвиг Аристархович Пупкин» — куда его отнесёте? К Пупкиным, или к Людвигам, или к обоим одновременно?
После того как решите как выделять кластера, можете воспользоваться расстоянием Левенштейна для определения принадлежности к кластеру.

Answer 2 · 2010-12-22 20:54:20

I. Если вы хотите посчитать количество одинаковых слов, то есть:
Пупкин — встречается 3 раза
Вася — встречается 2 раза и т.д, то это можно сделать либо с помощью хранимой процедуры, либо другим методом перебора (в php), либо (лучше) нормализовать данные, чтобы в одной строке было только одно слово, тогда можно будет использовать оператор GROUP BY.

II. Если выхотите посчитать количество одинаковых фамилий (что я думаю вы и хотите), то базу данных опять же лучше нормальзовать по такому принципу:

1. Самое длинное слово в строке брать за фамилию, если оно не оканчивается на «ич», «еч» и другие характериные для отчества окончания, в противном случае брать следующее наиболее длинное слово в строке.
2. Самое короткое слово в строке брать за имя.

Эти данные записать в таблицу с колонками Фамилия и Имя (или какой-то другой подходящий формат) при этом можно сохранить ключи на исходные заиписи. После чего по полю Фамилия можно использовать GROUP BY.

Как-то так. Ваша проблема в ненормализованных данных.

Answer 3 · 2010-12-23 01:46:55

Если решение должно быть нересурсоемким, и его надо сделать как можно быстрее — добавьте два поля, заполните их разбитым на слова (по пробелу и trim точку) ФИО, и ищите по ним OR LIKE

Выборка похожих результатов / MySQL

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт