Как оптимизировать проверку в базе наличия записи (чтобы не сделать дубль)?

Question

perl_demon @perl_demon

MySQL
NoSQL

Как оптимизировать проверку в базе наличия записи (чтобы не сделать дубль)?

Имеется одна таблица(примерно 15 полей) в которой сейчас порядка 50 млн. записей. Каждый день в эту таблицу записывается еще порядка 100 тыс. записей. При этом при записи в таблицу приходится проверять на наличие такой записи в базе, чтобы не было дублей. Все это происходит в рамках MySQL. Индекс простроен только по некоторым полям, по которым потом осуществляется поиск. А проверка на дубль происходит по всем полям, что соответсвенно является самой долгой операцией.

Подскажите, знающие люди, как можно избавиться от этого узкого места? Может меня спасти уход от MySQL на что-то другое, может даже NoSQL? Или только индекс по всем полям?

Вопрос задан более трёх лет назад
5190 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

4 комментария

mark_ablov @mark_ablov

+1, и не забыть сделать CHAR(16) или BINARY(16), но никак не VARCHAR/TEXT

Написано более трёх лет назад
niko83 @niko83

идею схожую хотел предложить с дополнением: можно добавить индекс на это поле unique и при вставке делать INSERT IGNORE

Написано более трёх лет назад
perl_demon @perl_demon Автор вопроса

Это интересно. Не думал о таком решении :-) Интересно сколько времени займет апдейт существующей базы?

Написано более трёх лет назад
perl_demon @perl_demon Автор вопроса

А не получиться что я введением поля hash буду из mysql мастерить key->value базу? может в моем случае имеет смысл попробовать какую-нибудь NoSQL?

Написано более трёх лет назад

Комментировать

5 комментариев

perl_demon @perl_demon Автор вопроса

Сейчас это делает так: SELECT 1 FROM table WHERE… И если ничего нет, то INSERT, а если есть то ничего не делаем. Просто в данных которые обрабатываются и заливаются очень много дублирующихся записей.

Написано более трёх лет назад
Алексей Шеин @conf

У ON DUPLICATE KEY обычно хуже производительность, чем у простого инсерта.

Написано более трёх лет назад
lesha_penguin @lesha_penguin

Если ничего делать не надо, то возможно стоит попробовать INSERT IGNORE?

Написано более трёх лет назад
perl_demon @perl_demon Автор вопроса

В случае INSERT IGNORE нужно будет строить индекс по все таблице или иметь какое-то уникальное поле однозначно определяющее запись. Т.е. его имеет смысл использовать с первым предложенным решением.

Написано более трёх лет назад
lesha_penguin @lesha_penguin

Ну, во-первых, не уникальное поле а уникальный индекс. Он вам все равно нужен, потому что в противном случае вы будете получать fullscan всей таблицы.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 127 просмотров
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 104 просмотра
1

ответ
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 362 просмотра
2

ответа
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 245 просмотров
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 214 просмотров
2

ответа
MySQL

Простой
Как оптимизировать или создать правильно mysql запрос?
- 1 подписчик
- 11 февр.
- 223 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить 3 массива из одного запроса?
- 2 подписчика
- 01 февр.
- 317 просмотров
4

ответа
MySQL

+1 ещё

Простой
Почему не работает кастомное поле в CDR?
- 1 подписчик
- 20 янв.
- 166 просмотров
1

ответ
MySQL

+2 ещё

Средний
Как определить, необходимую версию tomcat и mysql?
- 1 подписчик
- 07 янв.
- 221 просмотр
1

ответ
MySQL

Средний
Почему время в mysql опережает на пару секунд?
- 4 подписчика
- 06 янв.
- 447 просмотров
4

ответа
Показать ещё Загружается…

Answer 1 · 2011-11-02 19:30:10

Добавь ещё одно индексное поле с md5(все данные таблицы) и при проверке на дубль сравнивай хеши.
SELECT 1 FROM table WHERE hash='5c331a6790ba2d61a5c372336c9d215e'

Answer 2 · 2011-11-02 20:35:19

Эээ, как бы уникальный ключ для того и создан, настораживает только, что у вас уникальными должны быть все поля, возможно, база плохо спроектирована. Может, при ваших объемах это решение не пойдет, но как минимум оно очевидно и с него стоит начать.

Answer 3 · 2011-11-02 20:08:30

Ответ на Ваш вопрос будет сильно зависеть от того, зачем вы проверяете на наличие имеющейся записи? Если для того чтобы сделать INSERT если записи нет и UPDATE если запись уже есть, то возможно вам стоит применить конструкцию ON DUPLICATE KEY, тем самым сможете во-первых возложить проверку на БД, во вторых, получите возможность лить данные пачкой, и в третих уберете лишний оверхед появляющийся от позаписного исполнения.

Answer 4 · 2011-11-05 00:19:15

как минимум должно быть одно ключевое поле. Просто делаете вставку записи и проверяете результат операции на возникновение ошибки — в таком случае запись уже есть. Или просто игнорируете ошибку.
ЗЫ: я хоть и разработчик и сделал бы именно так, но не уверен, что это концептуально правильное решение.

Как оптимизировать проверку в базе наличия записи (чтобы не сделать дубль)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт