@vladimirchelyabinskiy а теперь делаем t3_1, t3_2, ..., t3_f (со столбцами original и hashed_original). Т.е. сначала ALTER TABLE t2 ADD `a_row_from_a_file_hash` varchar(32), потом UPDATE t2 SET a_row_from_a_file_hash = md5(a_row_from_a_file), ну а потом уже 16 запросов вида INSERT INTO t3_x SELECT a_row_from_a_file, a_row_from_a_file_hash FROM t2 WHERE t2.a_row_from_a_file_hash LIKE 'x%';, правда может таки индекс на a_row_from_a_file_hash поставить? всё, я сплю уже
@vladimirchelyabinskiy 1) LOAD DATA INFILE в таблицу t1 (с одним! столбцом (a_row_from_a_file), который и содержит отдельную строку из файла) без всяких primary key, 2) создаем другую таблицу t2 с primary key по столбцу a_row_from_file, 3) делаем INSERT INTO t2 (a_row_from_a_file) SELECT distinct(a_row_from_a_file) FROM t1;;;;;;;;
@vladimirchelyabinskiy Т.е. Если Вы будете добавлять не просто несколько одинаковых записей "123", но еще и прилепите к ним md5-хэш по "123", то получите те же одинаковые хэши, что и сами записи.
@vladimirchelyabinskiy Ну постарайтесь объяснить мне, как строка "123" может быть уникальной, если может появиться "еще одна запись 123", (внимание!) - "для чего мне и нужно что бы строка была уникальной и не повторялась...". Еще раз, результат вычисления хэш-фукнции md5 для строки "абракадабра" будет равна результату вычисления хэш-функции md5 для строки "абракадабра". Замените в этом комментарии все слова "абракадабра" на "123".
Хорошо, пожалуйста скажите, вот у Вас в тех файлах находятся всякие последовательности символов в каждой строке. Вы утверждаете, что они могут повторяться (т.е. или в одном и том же файле, или в разных, попадется одна и та же последовательность символов). Вам необходимо как-то различать эти одинаковые, но разные (!) последовательности символов. Верно? md5() Вам здесь не поможет, потому что для одинаковых последовательностей символов он возвращает одинаковый результат.
@vladimirchelyabinskiy Сделайте ОДИН РАЗ загрузку всех данных в таблицу, без каких-либо преобразований. Просто всех данных вообще. Через LOAD DATA INFILE. В таблице не должно быть никаких ключей. Таблица MyISAM.
@vladimirchelyabinskiy Итак, у Вас имеется куча файлов, данные из которых в зависимости от значения вычисленного md5 хэша разносятся по разным таблицам. Я прав или я прав?
1) чтотоянихренанепонял; 2) Вы пропустили мягкий знак; 3) никто Вам не запрещает вставлять снова те же данные, если только не нарушается требование уникальности.