Как лучше реализовать хранение данных в БД? Какой стек технологий выбрать?

Question

John Smith @mr_nameless

Как лучше реализовать хранение данных в БД? Какой стек технологий выбрать?

Кратко опишу суть проекта.

Есть дистрибьютор, который реализует товар (скажем, 300 наименований) пятидесяти другим мелким фирмам-оптовикам, у каждой из которых есть свой сайт. Дистрибьютор желает регулярно (каждый день) парсить эти 50 сайтов, преследуя следующие цели:

Контроль демпинга цен.
Возможность видеть динамику изменения цен на свой товар.

Немного о себе: есть опыт написания веб-скрейперов на Node.js (1 год). Есть небольшой опыт работы с noSQL базой данных RethinkDB (1 проект).

Проект будет состоять из:

Собственно, веб-скрейпер.
Небольшая админ-панель на локалхосте.

Админ-панель будет состоять из:

Главная страничка, с которой осуществляется управление скрейпером: "старт", "пауза", "стоп", "загрузить новые данные о товарах" (загрузить .csv файл со списком точных наименований товаров и их стоимостью; по умолчанию будет использоваться последний загруженный файл). Также на главной страничке будет отображаться ход парсинга в виде лоадера (реализую это через socket.io), а по окончании парсинга - краткая сводка с результатами (на каких сайтах продается товар ниже себестоимости).
Страничка со списком всех товаров в следующем виде: слева товар, справа - график (chart.js) средней цены на этот товар за последний месяц.
Можно кликнуть по товару и перейти на страницу с этим товаром, которая содержит следующую информацию: графики цен на каждом из 50 сайтов (lazy loading) за последние N дней.
Можно кликнуть по любому из сайтов и перейти на страничку с соответствующей информацией: слева товары, справа - графики цен на товар на данном сайте за последние N дней.

Реализовать весь бэкенд планирую в следующем виде: server.js, который будет хостить админпанель и который будет запускать менеджер парсеров manager.js (через child_process.fork()), который в свою очередь будет форкать 50 парсеров (firstsitecom.js, secondsitecom.js, ...). Зачем столько форков? Почему просто не сделать это через module.export? Для того, чтобы ошибка в одном из парсеров не положила всю систему. Так, я буду иметь возможность при выходе из строя одного из модулей просто перезапустить его, либо игнорировать и парсить дальше.

И, наконец-таки, сам вопрос, точнее, два:

Как лучше реализовать хранение данных в БД? Может быть, создать таблицу на каждый из пятидесяти сайтов, или лучше создать по таблице на каждый товар? За любой подробный ответ буду очень благодарен.
Какой стек технологий лучше всего подойдет? Я пока остановился на MEAN: Node.js, Express, Angular 2 (прошел туториалы PhoneCat и Hero на оф. сайте, вроде всё понятно, но смущает его монструозность и TypeScript), MongoDB (похожа на RethinkDB). Если у Вас есть советы касательно выбора стека, буду раз узнать их.

Понимаю, что с моими не очень обширными знаниями всё это может занять у меня много времени и сил, но я, конечно же, готов к этому и потрачу столько усилий, сколько необходимо.

Возможно, Вам есть что сказать, либо на ум пришли какие-то полезные ссылки. Буду рад любому ответу. Спасибо.

Вопрос задан более трёх лет назад
575 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Фронтенд-разработчик

10 месяцев

Далее
Skillfactory

Профессия Веб-разработчик

12 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

7 комментариев

John Smith @mr_nameless Автор вопроса

Спасибо за ответ!
Я выбрал noSQL, т.к. это единственный тип баз данных, с которым я реально работал (RethinkDB). Увы, с MySQL и подобными я не имею опыта, хоть и знаю немного язык SQL.
Как я понял, вы предлагаете следующее:
1. Таблицу, содержащую список сайтов и их ID
2. Таблицу товаров и их ID
3. Таблицу с результатами парсинга
Итого, в последней таблице за один запуск (день) окажется 300 (товаров) * 50 (сайтов) = 15 000 записей. За месяц 450 000 записей и за год - 5 400 000 записей.
Как Вы считаете, через год работы, много ли времени будет занимать один запрос, который, допустим будет возвращать стоимость определенного товара на определенном сайте за год (365 записей)?

Написано более трёх лет назад
4X_Pro @XXXXPro

John Smith: Да, вы поняли все правильно. А чтобы время выборки было небольшим, нужно корректно настроить индексы в этих таблицах. В принципе, для реляционных баз данных 5 млн записей — не такой уж большой объем, особенно если нет ситуаций параллельного чтения и записи множеством пользователей.
Вариант «один товар — одна таблица», в принципе, тоже возможен, но очень неудобен в плане возможного расширения (вдруг потребуется новый товар добавить), а по быстродействию по сравнению с нормально индексированной таблицей разница будет не особо велика.

Написано более трёх лет назад
John Smith @mr_nameless Автор вопроса

4X_Pro: Спасибо, значит, так и сделаю. Что стоит почитать по теме правильной настройки индексов?

Написано более трёх лет назад
4X_Pro @XXXXPro

Лучше всего общую теорию по реляционным базам. Но если нет времени и желания, то и так могу сказать, какие индексы нужны: на первые две таблицы — по ID товара и сайта, на третьей — первичный ключ из трех столбцов вида (ID_товара, ID_сайта, дата) и еще пара индексов — (ID_сайта, дата), (ID_товара, дата).

Написано более трёх лет назад
John Smith @mr_nameless Автор вопроса

4X_Pro: Отлично, спасибо!

Написано более трёх лет назад
heducose @heducose

John Smith: я правильно вас понимаю - вы прочитали один коммент в интернете от рандомного человека и это изменило ваш выбор?

4X_Pro: а почему не сделать это на noSQL? Где хоть один довод, кроме "вполне подходят"? Честно, интересно.

Написано более трёх лет назад
John Smith @mr_nameless Автор вопроса

heducose: Нет, я по-прежнему собираюсь делать это на MongoDB либо на RethinkDB. 4X_Pro написал полезный совет касательно индексации. Индексация есть как в SQL, так и в noSQL базах данных, так что противоречия не вижу.

Я сейчас выбираю шаблон для админки (остановился на этом ) и вдруг понял, что даже дизайн админ-страницы - не такая уж тривиальная задача. Так что если есть идеи, как расположить элементы интерфейса максимально понятно и удобно, буду рад узнать. Вот очень сырой вариант, концепция, нарисованная за час.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

Простой
Как работать с разрозненными данными?
- 1 подписчик
- 21 окт.
- 170 просмотров
2

ответа
Node.js

+1 ещё

Простой
Можно ли настроить grafana на отображение логов как у меня в терминале?
- 1 подписчик
- 20 окт.
- 77 просмотров
0

ответов
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 161 просмотр
2

ответа
JavaScript

+1 ещё

Простой
Неправильно работает crypto.subtle.deriveKey в Firefox, баг или мой косяк?
- 2 подписчика
- 16 окт.
- 119 просмотров
0

ответов
Node.js

+4 ещё

Простой
Как решить ситуацию с импортом файлов во время сборки проекта?
- 1 подписчик
- 15 окт.
- 121 просмотр
0

ответов
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт.
- 209 просмотров
4

ответа
JavaScript

Простой
Как подгружать xml с перерисовкой таблицы?
- 3 подписчика
- 14 окт.
- 178 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 244 просмотра
1

ответ
JavaScript

+1 ещё

Простой
Есть ли js-библиотека для офлайн-распознавания русской речи?
- 1 подписчик
- 12 окт.
- 171 просмотр
2

ответа
JavaScript

Простой
Почему не работает в консоли setTimeout?
- 1 подписчик
- 11 окт.
- 333 просмотра
1

ответ
Показать ещё Загружается…

Web-разработчик/WordPress программист (Full-stack). В офисе ст. м Ладожская

JustBusiness • Санкт-Петербург

от 130 000 до 150 000 ₽

Верстальщик / фронтендер для браузерного расширения

DevTeam.Space

от 1 000 до 2 000 $

React разработчик

ITK academy • Нижний Новгород

от 50 000 до 90 000 ₽

Answer 1 · 2017-07-25 15:22:06

А зачем такое делать на NoSQL? Тут реляционные базы вполне подходят.
Я бы вообще ограничился тремя таблицами:
1) сайт
2) товар вообще (по сути, там хранится только его id и наименование)
3) товар на конкретном сайте (тут хранится id товара, id сайта, цена, дата парсинга).

Как лучше реализовать хранение данных в БД? Какой стек технологий выбрать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт