Можно ли сравнить большие массивы по частям?

Question

kategg @kategg

Можно ли сравнить большие массивы по частям?

Есть ли возможность сравнить два массива не целиком, а по частям, допустим, пачками по 500-1000 элементов? Под сравнить я имею ввиду, что есть 2 массива. В каждом массиве около 100.000 элементов, необходимо получить результирующий массив со значениями, которые есть в первом массиве, но нет во втором, т.е. функционал array_diff. Массивы отсортированы.

Вопрос задан более двух лет назад
232 просмотра

4 комментария

Подписаться Простой 4 комментария

alexalexes @alexalexes

Если оба источника массива берутся из базы SQL, то нужно мучить SQL оператором join/left join/cross join/full join/вычитанием выборок, не нужно доставать 100 тыс. элементов в php - это не его работа. СУБД при правильном запросе выполнит эту задачу эффективнее всего.

Написано более двух лет назад
kategg @kategg Автор вопроса

alexalexes, если бы все так и было) Первый источник массива - это БД, второй - это api, которое за один запрос возвращает 100 элементов (пагинация). Следовательно, в БД надо добавить недостающие элементы и получить все записи, которых нет в приходящих от api массиве (т.е. есть в БД, но нет в массиве), чтобы пройтись по ним и выполнить некие действия.
Можно, конечно, загрузить приходящие от api данные во временную таблицу и join-ами сравнить с уже имеющейся, но не знаю, насколько такой подход оптимален. Получается много запросов на добавление + очистка после завершения сравнения

Написано более двух лет назад
alexalexes @alexalexes

А api нет условий фильтрации?
Обычно, новые записи требуются с определенного id или отметки времени. Можно сразу запрашивать новое.

Написано более двух лет назад
Odissey Nemo @odissey_nemo

kategg, Вставка делается, скорее всего, через оператор update. Тогда надо значение поля таблицы БД, по которому и идёт сравнение, сделать уникальным индексом и просто вставлять подряд всё поступающее сбоку . Те значения, что уже присутствуют, вызовут исключение (в терминах среды программирования, где работает алгоритм вставки) и будут автоматом отброшены, остальные встанут на свои места в таблице.
Для группы полей то же самое, только ключ станет составным, что ничего не изменит.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

4 комментария

kategg @kategg Автор вопроса

Данные для второго массива приходят частями по 100 элементов, т.е. для получения целого массива их придется складывать. Поэтому и интересуюсь, есть ли вариант, при котором не придется держать в памяти 2 больших массива

Написано более двух лет назад
Lynn «Кофеман» @Lynn

kategg, с точки зрения алгоритма это вообще неважно. В каждый момент времени нужен только один элемент.

Написано более двух лет назад
Сергей П @trapwalker

kategg, прислушайтесь, Lynn «Кофеман» прав. Если данные поступают отсортированными и в чанках, то два курсора в обоих входящих потоках находятся каждый в своём одном чанке. Не нужно ничего склеивать, просто у вас получается двухуровневый курсор: Чанк, позиция в чанке.

Написано более двух лет назад
Михаил Ливач @Mausglov

kategg, другими словами: так, как предлагает Сергей П - можно. Делать какой-нибудь array_slice() и пихать в array_diff() - нельзя

Написано более двух лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 198 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 446 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 246 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 190 просмотров
3

ответа
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 314 просмотров
0

ответов
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 153 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2462 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 339 просмотров
6

ответов
Laravel

+1 ещё

Простой
При переходе на другие страницы выдает 404?
- 1 подписчик
- 10 мая
- 126 просмотров
1

ответ
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 183 просмотра
1

ответ
Показать ещё Загружается…

Если оба источника массива берутся из базы SQL, то нужно мучить SQL оператором join/left join/cross join/full join/вычитанием выборок, не нужно доставать 100 тыс. элементов в php - это не его работа. СУБД при правильном запросе выполнит эту задачу эффективнее всего.
alexalexes, если бы все так и было) Первый источник массива - это БД, второй - это api, которое за один запрос возвращает 100 элементов (пагинация). Следовательно, в БД надо добавить недостающие элементы и получить все записи, которых нет в приходящих от api массиве (т.е. есть в БД, но нет в массиве), чтобы пройтись по ним и выполнить некие действия.
Можно, конечно, загрузить приходящие от api данные во временную таблицу и join-ами сравнить с уже имеющейся, но не знаю, насколько такой подход оптимален. Получается много запросов на добавление + очистка после завершения сравнения
А api нет условий фильтрации?
Обычно, новые записи требуются с определенного id или отметки времени. Можно сразу запрашивать новое.
kategg, Вставка делается, скорее всего, через оператор update. Тогда надо значение поля таблицы БД, по которому и идёт сравнение, сделать уникальным индексом и просто вставлять подряд всё поступающее сбоку . Те значения, что уже присутствуют, вызовут исключение (в терминах среды программирования, где работает алгоритм вставки) и будут автоматом отброшены, остальные встанут на свои места в таблице.
Для группы полей то же самое, только ключ станет составным, что ничего не изменит.

Answer 1 · 2024-06-07 21:06:28

А зачем вам это делать частями? Что вы хотите этим добиться?
Ваша задача имеет сложность О(N) и не представляет никакой сложности, просто двигайтесь двумя курсорами синхронно по массивам и всё.

Answer 2 · 2024-06-07 22:18:19

Можно и по частям. Какой там алгоритм сравнения, если все сразу известно? Два указателя, по одному в каждом массиве. Выкидываем меньшее число из двух - оно уникальное в своем массиве. Если два числа равны - вы нашли совпадение и двигайте оба.

Можно алгоритм поставить "на паузу". Вам надо будет хранить указатель в первом массиве между порциями второго.
Когда у вас приходят данные от второго массива, двигайте указатель в первом, пока число там меньше текущего во втором массиве. Если они равны, двигайте оба. Если число в первом больше - дивгайте указатель во втором массиве. И так пока один из массивов не кончится.

Если сложно сохранять указатель в первом массиве между порциями второго, то можно первый элемент второго массива искать в первом через бин поиск - так вы получите индекс без его сохранения.

Можно ли сравнить большие массивы по частям?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт