Как быстро сравнить большое число прайс-листов с данными в БД?

Question

Алексей Николаев @Heian

Ашот

Как быстро сравнить большое число прайс-листов с данными в БД?

Здравствуйте!
Есть ситуация, в которой клиенты могут загружать на сервер прайс-листы (в том числе и очень большие) либо просто давать ссылку на них. Есть база данных, где хранятся обработанные данные из прайс-листов. Соответственно нужно поддерживать актуальность данных, особенно когда речь идет о ссылках на прайс-лист где-то на сервере клиента. Сами файлы - стандартная выдача товаров в формате YML или CSV.

Ясно, что это должна быть крон-задача. Но дальше, когда речь заходит о производительности (файлов много, и нагрузка на процессор в момент исполнения таска должна быть минимальной), возникает несколько путей.

1) скачивание файла, определение его размера, парсинг, сравнение
Самый медленный способ, который сразу отметается.

2) скачивание файла, получение его хэш-суммы, и сравнение полученного значения с тем, что хранится в базе данных
На мой взгляд, способ гораздо лучше предыдущего, т.к. мы тратим ресурсы сервера только на гарантированно измененные файлы. Минус - парсить все равно придется, и хэш-сумма может различаться даже если файл по содержанию одинаковый.

3) получение размера файла и даты его изменения дистанционно (по CURL), и на основании этого решать, обновился файл или нет, если да - скачивать и парсить
Более быстрый способ, чем предыдущий, но могут возникать ложные срабатывания. Хэш-сумма мне видится более надежной.

4) создание специфической структуры, например, на базе sphinx или elastic search, решать, парсить файлы или нет, на основе хэш-суммы или времени изменения
При этом файлы все-таки придется парсить, но сам поиск данных в базе данных на базе этого решения будет быстрее.

Верно ли я выбрал последний вариант как оптимальный, и лучше не сделать? Может, можно сделать решение быстрее, чтобы вообще парсить не пришлось (или свести этот процесс к минимуму) - создать какой-нибудь индексный файл, или использовать алгоритм поиска, который будет выполняться за одно и то же время вне зависимости от размера исходных данных (но я не уверен, применимо ли это к xml \ csv - там речь шла про массивы и деревья)? Возможно, использовать diff для вычленения измененных участков?

Как бы подошли к данной проблеме вы?
Заранее спасибо.

Вопрос задан более трёх лет назад
252 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

Простой
Какие есть аналоги иностанных web песочниц типа JSFiddle, codepen ...?
- 1 подписчик
- 16 нояб.
- 302 просмотра
1

ответ
Веб-разработка

+1 ещё

Простой
Как реализовать хранение денег пользователей на сайте?
- 2 подписчика
- 15 нояб.
- 571 просмотр
5

ответов
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 316 просмотров
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 341 просмотр
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 226 просмотров
4

ответа
Веб-разработка

+1 ещё

Простой
Почему не работает хостинг Weather API?
- 1 подписчик
- 11 нояб.
- 244 просмотра
0

ответов
Веб-разработка

+1 ещё

Средний
Как запретить отскок сайта webapp telegram?
- 2 подписчика
- 05 нояб.
- 304 просмотра
0

ответов
Веб-разработка

Простой
Какую систему выбрать для документирования и описания структуры и дизайна сайта?
- 4 подписчика
- 03 нояб.
- 448 просмотров
4

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 191 просмотр
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 312 просмотров
3

ответа
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

Backend PHP developer

Office-Expert.kz

от 200 000 до 290 000 ₽

Answer 1 · 2016-05-20 17:33:09

Хэш и размер одновременно ИМХО достаточно. Парсить можно, если загрузка велика, например, на отдельной машинке (реальной или виртуальной) с копией БД.

Как быстро сравнить большое число прайс-листов с данными в БД?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт