Как ускорить сравнение больших массивов?

Question

Nik Gubin @gubin_niko

PHP

Как ускорить сравнение больших массивов?

Добрый день. Есть фоновый скрипт, который обрабатывает около миллиона объектов за проход (в несколько потоков и т.д., но не в этом суть).

Есть массивы объектов obj_1 и obj_2. По структуре они одинаковые, разное только наполнение.
Ниже примерный код, которым они сравниваются:

foreach ($obj_1 as $item_1) {
    $minus = [];

    // Перебираем каждый элемент со всем массивом obj_2
    foreach ($obj_2 as $item_2) {
      // Тут мы сравниваем не большие вложенные массивы, размером от 1 до 8 записей (слова)
      $diff = array_diff($item_2->parts, $item_1->parts);

      // Исключение должно быть одно, если оно есть, то пишем в отдельный массив
      if (count($diff) == 1) {
        $diff = current($diff);
        $minus[$diff] = $diff;
      }
    }

    // Что-то делаем с $minus, но не об этом разговор
  }

Сценарий работает, вполне, но т.к. объём данных увеличился резко, он работает очень долго, и я хотел бы узнать у более грамотных людей, можно ли как то оптимизировать этот участок и сэкономить дорогое время? Понимаю, что может из php не получится выжать больших результатов, но если это как-то можно улучшить, то буду очень благодарен за помощь.

К примеру в моём случае сравниваются (один из кусочков всего алгоритма) примерно 450 (в parts 1 элемент всего) записей с 123000 (в parts 2 элемента) и это занимает 25 секунд в среднем (работает в 2 потока). После 123000 будут сравниваться со след.группой, возможно там даже больше записей будет, и посчитав мы получаем уже два-три часа, а впереди ещё пара групп таких жирных, и в итоге получается 12-16 часов работа сценария, если и не больше (а может и меньше).

Если для предложения идей не хватает моих данных, готов исправиться и дополнить. Мне нужна ваша помощь, коллеги))

P.S. Количество потоков увеличивать не предлагайте - кладёт CPU на лопатки. Может выделят более мощный сервер с парочкой камней, но пока приходится не рассчитывать на процессор.

Вопрос задан более трёх лет назад
370 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

9 комментариев

Nik Gubin @gubin_niko Автор вопроса

1) В каждом элементе массива (obj_1 и obj_2) лежит вложенный массив (в примере это parts) с набором слов, которые были заготовлены ранее из ключевых фраз. Порядок слов нам не известен заранее.
2) В obj_2 во вложенном массиве всегда на 1 элемент больше, чем в obj_1 и наша задача выяснить, разница между набором слов равна одному слову, и если да, то сохранить это самое слово, а если нет, то просто приступить к следующему элементу в obj_2.

Написано более трёх лет назад
ТёмнаяМатерия @darkmatter

gubin_niko: массивы из бд берутся?

Написано более трёх лет назад
Nik Gubin @gubin_niko Автор вопроса

ТёмнаяМатерия: да, но получение всех данных занимает считанные секунды, потом эти данные лежат в памяти и базу я уже не дёргаю. Ну и плюс ко всему данные выходят из Mongo уже объектом, перебора дополнительного никакого нет. Ах да, эти два потока не дёргают базу, отобранные данные лежат в темповом файлике, пока работа с группой не завершится.

Написано более трёх лет назад
Nik Gubin @gubin_niko Автор вопроса

ТёмнаяМатерия: суть в том, что вокруг этого участка всё тихо и мирно, максимально сжатое по времени, а вот сам процесс сравнения тянется долго и нудно, потому пришёл к вам за помощью, ибо "на этом наши полномочия всё..."

Написано более трёх лет назад
ТёмнаяМатерия @darkmatter

gubin_niko: Я думаю о том, что данные надо предварительно обработать
obj1 слово слово слово слово слово слово
obj2 слово слово слово слово слово слово слово - на одно больше
Что если посчитать длину строки obj1 и длину строки до последнего пробела у obj2 получим 2 цифры. Если цифры не равны, то разница между массивами точно не в последнем слове, а если равны то может в последнем а может и нет...

Написано более трёх лет назад
ТёмнаяМатерия @darkmatter

gubin_niko: можете написать мне в личку https://vk.com/id281610803 если тут фразы не хотите светить, покумекаю получше

Написано более трёх лет назад
Nik Gubin @gubin_niko Автор вопроса

ТёмнаяМатерия: Дело в том, что слово "исключение" может быть не только на конце фразы, sorry, что изначально не упомянул. Интересная идея, я её рассмотрю сейчас детальнее...

Написано более трёх лет назад
Илья @FireGM

gubin_niko: если в 2 массиве объекты не отсортированы, то предварительная сортировка и поиск в отсортированном массиве будет быстрее

Написано более трёх лет назад
Nik Gubin @gubin_niko Автор вопроса

FireGM: учту, благодарю!

Написано более трёх лет назад

3 комментария

Nik Gubin @gubin_niko Автор вопроса

нет нет, исключение в одно слово должно быть только между 2 разными фразами) т.е. если в obj_2 три фразы, то всего исключений для одной фразы из boj_1 не должно быть больше 3, по одному на сравнение.

Прошу прощения, если по идиотскому объяснил, видимо дневной мозговой штурм сделал своё дело... туплю)

Написано более трёх лет назад
ThunderCat @ThunderCat Куратор тега PHP

gubin_niko: понятно, нетривиальные задачи - нетривиальное объяснение, не всегда на все хватает нервов и сил )

Написано более трёх лет назад
Nik Gubin @gubin_niko Автор вопроса

К счастью БД я уже оптимизировал и засунул в Mongo, ибо на записи мускуль умер не пикнув даже. Данные вытаскиваются перед сравнение единоразово, но т.к. работа в 2 потока (пока что, выделят мне серв всё таки с процессорными мощностями), я эту выборку храню во временном файлике. Так что увы, этим проблему не решить, база не тыркается)

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 3 подписчика
- 14 нояб.
- 311 просмотров
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 218 просмотров
4

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 185 просмотров
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 309 просмотров
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 282 просмотра
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 150 просмотров
1

ответ
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 321 просмотр
0

ответов
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 375 просмотров
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 303 просмотра
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 292 просмотра
4

ответа
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

Backend PHP developer

Office-Expert.kz

от 200 000 до 290 000 ₽

Answer 1 · 2016-04-22 16:43:26

Надо смотреть что за слова там. Вы ищете вхождение слова в фразу или какое конкретно совпадение он ищет? В зависимости от этого можно придумать предварительный алгоритм уменьшения операций.

Answer 2 · 2016-04-22 17:48:19

первое что бросается в глаза:

// Исключение должно быть одно, если оно есть, то пишем в отдельный массив
if (count($diff) == 1) {
$diff = current($diff);
$minus[$diff] = $diff;
}

break если нужно всего 1 совпадение, или я не вник в задачу....
остальное - как всегда - дъявол кроется в деталях

UPD: если все эти прыжки с бубном тянутся из бд - нужно постараться сократить выборку на уровне селектов, возможно даже сделать выборки из базы по более притянутым критериям и получить больше запросов, при меньшей работе с массивами, все таки бд изначально быстрее работают с сортировками и выборками/сравнениями. Для текстовых полей включить фултекст серч для быстрой выборки - и вперед.

Как ускорить сравнение больших массивов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт