Как оптимизировать этот php код?

Question

Вечно Крайний @vechnokrainii

ну почти всегда(

PHP

Как оптимизировать этот php код?

Здравствуйте! Скажите, можно ли как-то код оптимизировать. Его цель сверить 2 массива и вывести значения который есть в первом ($dada), но нет во втором ($base) . Первый массив я получаю из TSV файла (45000 записей) В tsv идут значаения и я преобразую их в массив массивов. Второй массив я вытягиваю из sql - базы. Но чтобы не тянуть все поля, так как для сверки нужно только одно, беру ток ID. Время проверки на дубликаты при 20000 записей в базе составило почти 11 минут. А там еще и записывать в базу потом надо. В результе я записал 45000 в базу. Но у менять есть еще файлы ( по 20-40 тыс.записей) который нужно сверять и записывать, если вдруг в базе чего-то нет. Повторю, что 10 минут это только время когда он сверяет. Или это нормальное время? Просто впервые работаю с с таким объемом.

$data = []; //массив котрый я получаю из файла
$base = []; //массив который я беру sql запросом из базы. Содержит в себе значение только одного поля - ID

$maxBase = count($base);
$start = microtime(true);
	foreach($data as $dates) {
		$i = 0;
		foreach ($base as $bases) {
			if($dates['ID'] == $bases['ID'] ) {
				break;
			} 
			$i++;
			if($i == $maxBase) {
				$itog[] = $dates;
			}
		}
	}
$finish = microtime(true);
$time = $finish - $start

Вопрос задан более трёх лет назад
304 просмотра

1 комментарий

Подписаться 2 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 2

3 комментария

2 комментария

Вечно Крайний @vechnokrainii Автор вопроса

В базу к сожалению одной строкой не получиться(
Мне нужно еще каждую запись в базе прогнать по API через другой сервис. Получить от него ответ с уже стандартихированными и дополнительными данными и только потом писать в базу
А остальные обязательно попробую)

Написано более трёх лет назад
Вечно Крайний @vechnokrainii Автор вопроса

Весь код трудно вместить или как-то описать. Так как я учу php и работаю ток с мая 20го все это делается очень топорно и методом тыка) Но постараюсь кратко передать
У менять есть несколько файлов которые регулярно обнавляются. Это и tsv и xml . И у всех разная структура.
Я сначала собираю все в массив. На каждый файл свой массив. Они уже одинковые по струкутре. Потом я один полностью записал в базу через стандратизацию ( Dadata) у меня появилось там поле IDSTANDART. Затем мне нужно брать другой файл, брать значения по одному прогонять его через Dadata и получить IDSTANDART. Затем сверить с базой. И если есть то дополнить запись инфой с нового файла, если нет то новоя запись . И так все файлы . И все это в крон.
К сожалению сравнить файлы без Dadata очень сложно т.к. все файлы по разному хранят информацию и в любом случае нужно приводить к одному формату

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

7 комментариев

Вечно Крайний @vechnokrainii Автор вопроса

я пробовал через array_diff он почему-то не отрабатывал(
Не знаю в чем причина. Может потому, структура массивов разная. Пытался и таким образом:
array_diff($data['ID'], base['ID']);
Все равно не отработывает.
А скажите как более правильно будет? С точки зрения разработки. Проверять в скрипте или в базе. Т.к. это все дело будет зашиваться в cron

Написано более трёх лет назад
Stalker_RED @Stalker_RED

Вечно Крайний, я заливал бы через базу.

Написано более трёх лет назад
FanatPHP @FanatPHP

А что это ещё за переменная $data['ID']? откуда она взялась?
Ты бы хоть отображение ошибок включил, чтобы пхп тебе подсказывал, когда ты косячишь

Написано более трёх лет назад
Вечно Крайний @vechnokrainii Автор вопроса

FanatPHP, просто
array_diff($data,$base)
тоже не работет

Написано более трёх лет назад
FanatPHP @FanatPHP

ну разумеется не работает поскольку это не одномерные массивы
а как получить из них одномерные тебе уже показали

Написано более трёх лет назад
Вечно Крайний @vechnokrainii Автор вопроса

FanatPHP, Я понимаю. Но сверить то мне нужно только одно поле из всего массива. И после того как я найду разницу как мне обратиться обратно к $dates , т.к. мне нужны значения остальных полей.

Написано более трёх лет назад
FanatPHP @FanatPHP

по полученным в результате ID

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 112 просмотров
1

ответ
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 214 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 469 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 252 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 197 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 158 просмотров
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2474 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 346 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 189 просмотров
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 252 просмотра
2

ответа
Показать ещё Загружается…

Импортируйте TSV файл во черновиковую таблицу MySQL вручную и работайте с данными по-максимуму на стороне MySQL

Answer 1 · 2020-08-07 14:59:54

я думаю, даже in_array будет быстрее чем это.
Но по-хорошему надо сделать значения индексами
тогда проверка будет проходить мгновенно

$base = array_flip(array_column($base, 'ID'));
foreach($data as $dates) {
    if (!isset($base[$dates['ID']])) {
            $itog[] = $dates;
    }
}

Answer 2 · 2020-08-07 15:02:17

Сложно сказать не видя всего кода и данных в файлах и базе. Но оптимизировать точно можно. Вот вам примеры:

Если TSV файлы слишком большие, то не надо их в массив пихать. Можно их читать построчно fgetcsv() и работать с маленькими объёмами данных.
Если вы часто берёте из таблицы одно и тоже, то есть смысл индексировать это поле ALTER TABLE xxx ADD INDEX(ID).
Если в базе поле ID настроено уникальным (индекс UNIQUE) то можно писать в базу без проверки ID, вместо INSERT используя INSERT IGNORE.
Вносить изменения в базу данных не частями по одной строке (создавая кучу запросов), а в конце вычислений одним длинным запросом.

И т.д. :)

Answer 3 · 2020-08-07 14:41:55

Сравнить пересечение массивов можно так: https://www.php.net/manual/ru/function.array-diff.php

Но возможно еще быстрее будет залить все в базу, во временную таблицу (load data infile) и потом добавить куда нужно используя insert ignore.
1. создать временную таблицу (без индекса)
2. load data infile ...
3. создать индекс по id
4. insert ignore into ... select (или on duplicate key update?)
5. удалить временную

20к записей должно обрабатываться за несколько секунд. Ну может секунд за 20, если сервер совсем слабый.

Как оптимизировать этот php код?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт