Отсеивание дублей строк с Mysql?

Question

camokatik @camokatik

MySQL

Отсеивание дублей строк с Mysql?

Здравствуйте,

Встала задача раздублить около 60гб строковых данных. Уникальных среди них около 25-30%

Решили использовать mysql с уникальным индексом для этого.

Вопросы:
1. Уникальным лучше делать поле с самой строкой (1-5 слов) или же оптимальней считать сначала crc32 от этой строки, и уже на хеш вешать уникальный индекс?

2. Можно ли применить некое курстарное подобие партиционирования, но не на уровне таблиц, а на уровне БД?

Например, делить данные по первой букве строки (получим 28 физических баз), и одновременно заполнять только одну из них, тем самым уменьшая потребление RAM?

Вопрос задан более трёх лет назад
2737 просмотров

1 комментарий

Подписаться 2 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

3 комментария

camokatik @camokatik Автор вопроса

Да, именно импортнуть
1-5 слов будет длиннее чем crc32(4 байта), следовательно существенно уменьшится размер индекса. Время импорта не так критично как расход оперативы

Написано более трёх лет назад
tzlom @tzlom

не забудьте о том что CRC32 это высокая вероятность коллизий (а значит повторный поиск сравнением) плюс расходы на взятие суммы
стройте B-TREE, не так уж много он пямяти и съест

Написано более трёх лет назад
camokatik @camokatik Автор вопроса

Ну это будем тестить, спасибо.
А вот насчет партиционирования интересно все таки

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 131 просмотр
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 108 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 363 просмотра
2

ответа
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 247 просмотров
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 216 просмотров
2

ответа
MySQL

Простой
Как оптимизировать или создать правильно mysql запрос?
- 1 подписчик
- 11 февр.
- 224 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить 3 массива из одного запроса?
- 2 подписчика
- 01 февр.
- 318 просмотров
4

ответа
MySQL

+1 ещё

Простой
Почему не работает кастомное поле в CDR?
- 1 подписчик
- 20 янв.
- 167 просмотров
1

ответ
MySQL

+2 ещё

Средний
Как определить, необходимую версию tomcat и mysql?
- 1 подписчик
- 07 янв.
- 224 просмотра
1

ответ
MySQL

Средний
Почему время в mysql опережает на пару секунд?
- 4 подписчика
- 06 янв.
- 455 просмотров
4

ответа
Показать ещё Загружается…

и как вы собираетесь повесить уникальный индекс на неочищенную от дублей таблицу?

Answer 1 · 2010-10-09 19:46:46

Исходные данные в текстовых файлах лежат. Подлежать заполнению.
А вообще индекс на неочищенную можно добавить так:

ALTER IGNORE TABLE `test` ADD UNIQUE (`text`)

Answer 2 · 2010-10-09 19:51:29

а, т.е. вы хотите создать БД с уникальным ключом и попытаться на неё импортнуть все строки?
насчёт партиционирования не знаю, я таких фич не встречал
считать хеш не рекомендую, тем более что 1-5 слов это весьма короткий фрагмент текста,MySQL сам справится с задачей

Answer 3 · 2010-10-10 19:05:19

К сожалению только (no)mysql, там кроме раздублирования еще доп функионал нужен. Остановился на mysql т.к. только с ней работал плотно и опыта на порядок больше чем с другими субд.

Отсеивание дублей строк с Mysql?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт