Как правильно хранить данные парсинга на сайте?

Question

BushaevDenis @BushaevDenis

PHP
SQL

Как правильно хранить данные парсинга на сайте?

Как будет правильно хранить большой объём данных парсинга, например у меня есть 5 тысяч ссылок, в каждой из которых таблица в 5 колонок, 5000 строк.
И каждую ссылку нужно будет парсить раз в n-дней, и сохранять результат не удаляя старый.
Т.е в итоге получится очень и очень много данных.
Как правильно будет хранить все эти данные?

Вопрос задан более трёх лет назад
634 просмотра

9 комментариев

Подписаться 1 Оценить 9 комментариев

sim3x @sim3x

бд нормализована?

Написано более трёх лет назад
BushaevDenis @BushaevDenis Автор вопроса

sim3x: Я только начал постигать. Вряд ли я смогу ответить на этот вопрос. (Вики уже почитал, мало что понял)

Написано более трёх лет назад
BushaevDenis @BushaevDenis Автор вопроса

sim3x: Пока что у меня в базе хранится не так много данных. Можно считать, что она 6НФ(Если я всё правильно понял из статьи).

Написано более трёх лет назад
sim3x @sim3x

BushaevDenis: НФ не зависит обьема

Написано более трёх лет назад
BushaevDenis @BushaevDenis Автор вопроса

sim3x: Правильно, она зависит от данных. Пока что у меня мало таблиц и всё более-менее разложено по полочкам. Как будет в итоге - хз)

Написано более трёх лет назад
sim3x @sim3x
по сути у тебя две таблицы

Link id link Results id link_id text datetime

= 3НФ
Написано более трёх лет назад
sim3x @sim3x

BushaevDenis:
НФ не зависит обьема данных
НЕ зависит

Написано более трёх лет назад
BushaevDenis @BushaevDenis Автор вопроса

sim3x: т.е все данне хранить в 1 ячейке? Потом когда нужно будет их представлять - опять парсить эту ячейку, чтоб в нормальном виде юзеру показать?

Написано более трёх лет назад
sim3x @sim3x

BushaevDenis: а вот ето уже зависит от ТЗ
Что нужно хранить и как хранить

В простом случае - лучше хранить страницу у себя в виде файла

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

4 комментария

dez64ru @dez64ru

А если это парсинг яндекс вебмастера?) Как раз нужна наиболее подробная статистика за довольно длительный период.

Написано более трёх лет назад
igruschkafox @igruschkafox

Тогда предлагаю как то кластеризовать ссылки
то есть создаем таблицу ссылок в этой таблице поле с номером хранилища (например номер репозитория 1,2,3,4,5)

и разделяем хранение по 5 актуальным таблицам
и соответственно 5 архивным таблицам

Тогда Вы от проблемы бэкапирования не избавитесь - но сможете в архиве держать больше данных в архиве

П.С.
Блин 9 триллионов строковых значений это у Вас диски раньше закончатся, чем Вы начнете что то анализировать

Написано более трёх лет назад
dez64ru @dez64ru

igruschkafox: Я погоречился с обновлением в каждый день. Раз в месяц буду обновлять. Решил не парится с БД и записывать всё в xlsx, в бд буду заносить только данные по "количеству запросов в топе".

Написано более трёх лет назад
igruschkafox @igruschkafox

dez64ru: прой пересмотреть бизнес логику тоже полезно :)

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 3 подписчика
- 14 нояб.
- 322 просмотра
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 221 просмотр
4

ответа
SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 1 подписчик
- 11 нояб.
- 166 просмотров
1

ответ
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 187 просмотров
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 309 просмотров
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 283 просмотра
2

ответа
SQL

Простой
Почему INSERT присваивает только один символ вместо полного значения?
- 2 подписчика
- 29 окт.
- 176 просмотров
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 150 просмотров
1

ответ
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 322 просмотра
0

ответов
SQL

Простой
Правильно ли написан SQL-запрос для вывода клиентов с действующими (непогашенными) кредитами?
- 1 подписчик
- 19 окт.
- 211 просмотров
2

ответа
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

Backend PHP developer

Office-Expert.kz

от 200 000 до 290 000 ₽

sim3x: Я только начал постигать. Вряд ли я смогу ответить на этот вопрос. (Вики уже почитал, мало что понял)
sim3x: Пока что у меня в базе хранится не так много данных. Можно считать, что она 6НФ(Если я всё правильно понял из статьи).
sim3x: Правильно, она зависит от данных. Пока что у меня мало таблиц и всё более-менее разложено по полочкам. Как будет в итоге - хз)
по сути у тебя две таблицы

Link id link Results id link_id text datetime

= 3НФ
BushaevDenis:
НФ не зависит обьема данных
НЕ зависит
sim3x: т.е все данне хранить в 1 ячейке? Потом когда нужно будет их представлять - опять парсить эту ячейку, чтоб в нормальном виде юзеру показать?
BushaevDenis: а вот ето уже зависит от ТЗ
Что нужно хранить и как хранить

В простом случае - лучше хранить страницу у себя в виде файла

Answer 1 · 2017-03-16 16:17:42

Наверно нужно применять тот же подход, что и в системах контроля версий. Тогда каждый результат одного URL можно обновлять (commit), не затирая предыдущего. При этом место в БД будет увеличиваться на дельту (diff).

Answer 2 · 2017-03-16 21:26:08

5000 * 5000 = 25 000 000

раз в день обновляем все ссылки
25 000 000 * 365 = 9 125 000 000 000 в год

Да, для одной таблицы это пожалуй многовато
Рекомендую поступить так
хранить данные в двух таблицах
в первой 25 000 000
во второй (архивной) все записи которые были раньше - до обновления
то есть вся история изменений у Вас будет во второй таблице
Соответственно секционировать архивную таблицу примерно по 2 недели

Таким образом Вы добьетесь что актуальные данные будут доставаться быстро
Архивные подольше - но это и понятно

Потом данные за прошлые периоды можно бэкапить оставляя только последние записи изменений (например хранить в архиве только данные за полгода)

В случае необходимости - всё можно достать и посчитать,
но практика говорит что такие бешеные объемы если и доставать то они считаться будут очень долго, а ввиду давности времени зачастую бывают неактуальны. По прошлогодним ссылкам явно никто аналитику проводить не будет.

Как правильно хранить данные парсинга на сайте?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт