Какой самый быстрый способ проверить БД на вхождения множества строк?

Question

astrotrain @astrotrain

PHP
MySQL

Какой самый быстрый способ проверить БД на вхождения множества строк?

Есть база, она в будущем будет довольно большая. Суть в том, что перед тем как процессить текстовый файл ~ 2мб нужно выбрать из него только те строки, которых нет в базе. Есть ли способ быстрее чем просто выбрать данные и построчно сравнить? Спасибо.

Вопрос задан более трёх лет назад
173 просмотра

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Skillbox

PHP-разработчик. Базовый уровень

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 6

1 комментарий

3 комментария

astrotrain @astrotrain Автор вопроса

Наверное слишком круто для простенького проекта.

Написано более трёх лет назад
Vitaly Vitaly @V_Tjuryakin

astrotrain: еще как вариант - парсите файл, все строки - загоняете в массив. Далее, смотря на чём пишете, к примеру на laravel - используя Eloquent делаете ->select('text_field')->chunk(100, function($query) { // сравнение }); т.е. он будет брать из базы по 100 записей каждый раз, т.к. пачками - а вы уже сравниваете на php - если есть - добавляете значение в новый массив для записи, ну и после делаете insert.

Написано более трёх лет назад
astrotrain @astrotrain Автор вопроса

То есть смысл в том чтобы сравнивать не всё со всем огромным списком а по кускам?

Написано более трёх лет назад

5 комментариев

astrotrain @astrotrain Автор вопроса

Дело в том что эти строки должны быть снова сохранены в файл, потом как-то обработаны и только потом уже в базу занесены. Но идея по-моему очень хорошая, возьму на заметку.

Написано более трёх лет назад
astrotrain @astrotrain Автор вопроса

Только я не совсем шарю как через outer join получить строки, которых в базе нет?

Написано более трёх лет назад
Андрей @iCoderXXI

astrotrain: Ну строки можно назад забрать из временной таблицы, обработать и сохранить как угодно и куда угодно...

Написано более трёх лет назад
Андрей @iCoderXXI

astrotrain: www.mysql.ru/docs/man/JOIN.html

Написано более трёх лет назад
astrotrain @astrotrain Автор вопроса

Андрей: хорошо, буду пробовать. Спасибо.

Написано более трёх лет назад

3 комментария

4 комментария

astrotrain @astrotrain Автор вопроса

А чем чревато увеличение auto_increment поля в будущем?

Написано более трёх лет назад
Aleksey Ratnikov @mahoho

Вы можете упереться в верхний предел INT (или BIGINT) и тогда INSERT будет генерировать ошибку. Впрочем, верхний предел BIGINT UNSIGNED - 18446744073709551615.

Написано более трёх лет назад
Aleksey Ratnikov @mahoho

Ну и еще "дырки" между значениями в id будут, лично мне это не нравится.

Написано более трёх лет назад
astrotrain @astrotrain Автор вопроса

Aleksey Ratnikov: Я понял, спасибо.

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 231 просмотр
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 232 просмотра
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 216 просмотров
4

ответа
PHP

+1 ещё

Простой
Перестал работать php запрос к телеграмм?
- 1 подписчик
- 15 окт.
- 220 просмотров
1

ответ
PHP

+2 ещё

Простой
Как проще отправить изображение на стену канала?
- 1 подписчик
- 15 окт.
- 146 просмотров
1

ответ
PHP

Простой
Как точно работает скрипт на RoadRunner?
- 1 подписчик
- 13 окт.
- 207 просмотров
1

ответ
PHP

+1 ещё

Простой
Стоит ли использовать файловый сервер в проекте?
- 2 подписчика
- 13 окт.
- 251 просмотр
3

ответа
PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт.
- 269 просмотров
3

ответа
PHP

+1 ещё

Средний
Что входит в отладку скрипта на PHP?
- 1 подписчик
- 02 окт.
- 265 просмотров
1

ответ
PHP

+1 ещё

Средний
Возможно ли профилирование на PHP без xhprof и xdebug?
- 1 подписчик
- 02 окт.
- 178 просмотров
2

ответа
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 180 000 до 250 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

Разработчик PHP/Go

ЭТП ГПБ / VESNA

До 220 000 ₽

Answer 1 · 2016-02-01 13:00:32

Насколько я знаю, запросы к мускулю и так идут по эффективному алгоритму. А так единственный адекватный вариант - брать строку и

SELECT `id` FROM `table` WHERE `field`="$наша_строка"

Ну и смотреть ответ

Answer 2 · 2016-02-01 13:10:59

Vitaly Vitaly @V_Tjuryakin

Перфекто

ElasticSearch

Ответ написан более трёх лет назад

3 комментария

Answer 3 · 2016-02-01 13:52:28

Текстовый файл 2 мб это не так много. Я бы спарсил текстовый файл в отдельную временную таблицу (даже можно in-memory), а потом от нее делал OUTER JOIN на основную, и в тех строках, которые есть в файле, но нет в основной таблице получил бы NULL, по которому и отбирал бы то, что надо дозалить в основную таблицу.

Это более-мене адекватный и производительный способ на мой взгляд.

Разумеется должны быть индексы на соответствующие поля в обеих таблицах, и вот тут, все зависит от нескольких моментов. Во первых, если строки всегда идентичные, но длиннее 32 байт, то есть смысл добавить дополнительные поля в таблицы, загонять туда MD5 хеши строк и индексировать по хешам.

Если же в строках что-то плавает, например регистр символов, то перед вычислением хэша строки надо приводить к единому виду. Причем в таблицах помимо хэшей хранить можно и оригинальные строки, тут вопрос только о вариантах сравнения.

Answer 4 · 2016-02-01 13:54:21

а строки целиком сохраняются в базу?
если да - я бы хранил md5 от строки (если, конечно, исходные строки не короче 32 символов), на это уникальный индекс и вперед.

Answer 5 · 2016-02-01 14:10:25

Если вы загружаете при помощи LOAD DATA INFILE, тогда используйте LOAD DATA INFILE 'file_name' IGNORE - дубликаты будут проигнорированы.
Если через INSERT со множеством VALUES, тогда можно также использовать INSERT IGNORE.
Однако оба варианта подразуемевают увеличение AUTO_INCREMENT поля целевой таблицы (если есть) при неудачной попытке записи дубликата.
Для избежания этой проблемы можно загружать во временную таблицу, а затем делать примерно так:

INSERT INTO target_table (field1, field2)
	SELECT field1, field2 FROM temporary_table WHERE not EXISTS(
		select 1 from target_table where temporary_table.id = target_table.id
	)

Answer 6 · 2016-02-01 14:16:05

У меня стояла подобная задача: надо было из файла добавлять данные, которых нет в базе. В файле было 4 000 000 записей и в базе столько же. Итого чтобы их пройти надо было совершить примерно 8*10^12 итераций.

Поэтому я одним запросом получал из базы все значения полей по которым шло сравнение с сортировкой по ним. Дальше проходил в цикле по всем записям из файла и бинарным поиском находил те которых нет в базе. Итого получалось не более 5*10^7 итераций и 1 запрос к базе чтобы найти записи из файла которых еще нет в базе.

Но у меня были числовые данные по которым легко бинарным поиском искать и сравнение шло только по 2 полям таблицы.

Какой самый быстрый способ проверить БД на вхождения множества строк?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт