MYSQL. Проблема с дублями, как решить?

Question

Антон Щербаков @WestTrade

MySQL

MYSQL. Проблема с дублями, как решить?

Есть примерно такой запрос. На таблицах < 100к строк, запрос отлично отрабатывается. Но как только я подсовываю таблицу на 5 миллионов строк, я получаю тайм-ауты, какие либо не ставил.

И даже проблему я вижу, при большом объеме строк, происходит умножение итераций (5 000 000 * 5 000 000 = печаль моего сервера).

Вопрос, как переписать такой запрос? Чтобы можно было детектировать дубли и для дублей установить родителя. Удалять дубли нельзя, дробить тоже.

UPDATE `a[tmp]` AS tt
	INNER JOIN (
		SELECT
			`id`,
			`a`,
			`b`
		FROM `a[tmp]`
	) AS tr

	ON
		tt.`a` = tr.`a`
		AND
		tt.`b` = tr.`b`
		AND
		tt.`id` > tr.`id`

	SET tt.`type` = 'del', tt.`par_id` = tt.`id` > tr.`id`

Вопрос задан более трёх лет назад
272 просмотра

4 комментария

Подписаться 4 Оценить 4 комментария

Оптимус Пьян @marrk2

Вам надо узнать есть ли дубли среди 5кк строк?

Написано более трёх лет назад
Антон Щербаков @WestTrade Автор вопроса

Дмитрий: Да, но не просто узнать, а еще поставить два маркера: удалить (`type` = 'del') и родитель (`par_id`). Для последующей обработки взаимосвязанных таблиц и смены привязки id.

Написано более трёх лет назад
Оптимус Пьян @marrk2

Антон Щербаков: Маркер удаления надо числом ставить 0 или 1 например, на 5кк строках сэкономите немного места )) Родителя не понял по какому признаку присваивать. Подсказка: дубли ведь всегда должны быть одной длинны не так ли?

Написано более трёх лет назад
Антон Щербаков @WestTrade Автор вопроса

Дмитрий: Родитель - id наименьший id из списка дублей (5 - родитель, 25, 152). Не обращайте внимание, просто надо взять хоть какое-то число.
Дубли - это varchar с разной длиной строки.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 127 просмотров
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 102 просмотра
1

ответ
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 362 просмотра
2

ответа
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 245 просмотров
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 214 просмотров
2

ответа
MySQL

Простой
Как оптимизировать или создать правильно mysql запрос?
- 1 подписчик
- 11 февр.
- 223 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить 3 массива из одного запроса?
- 2 подписчика
- 01 февр.
- 316 просмотров
4

ответа
MySQL

+1 ещё

Простой
Почему не работает кастомное поле в CDR?
- 1 подписчик
- 20 янв.
- 166 просмотров
1

ответ
MySQL

+2 ещё

Средний
Как определить, необходимую версию tomcat и mysql?
- 1 подписчик
- 07 янв.
- 221 просмотр
1

ответ
MySQL

Средний
Почему время в mysql опережает на пару секунд?
- 4 подписчика
- 06 янв.
- 447 просмотров
4

ответа
Показать ещё Загружается…

Вам надо узнать есть ли дубли среди 5кк строк?
Дмитрий: Да, но не просто узнать, а еще поставить два маркера: удалить (`type` = 'del') и родитель (`par_id`). Для последующей обработки взаимосвязанных таблиц и смены привязки id.
Антон Щербаков: Маркер удаления надо числом ставить 0 или 1 например, на 5кк строках сэкономите немного места )) Родителя не понял по какому признаку присваивать. Подсказка: дубли ведь всегда должны быть одной длинны не так ли?
Дмитрий: Родитель - id наименьший id из списка дублей (5 - родитель, 25, 152). Не обращайте внимание, просто надо взять хоть какое-то число.
Дубли - это varchar с разной длиной строки.

Answer 1 · 2016-03-19 20:31:08

Нда.
Я так понимаю, что первичный ключ в столбце id.
Поробуйте с делать так:

Update atmp tt set
 Type = iif( (exist (select * from atmp tt1 where tt.a=tt1.a and tt.b=tt1.b and tt.id < tt1.id)), 'del', ''),
Par_id = (select id from atmp tt1 where tt.a=tt1.a and tt.b=tt1.b and tt.id < tt1.id)

MYSQL. Проблема с дублями, как решить?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт