Стоит ли хранить HTML документ в базе?

Question

Григорий Коваленко @bitrix24info

Эксперт Битрикс24

Стоит ли хранить HTML документ в базе?

Привествую!
Представим, что у нас есть база данных документов в формате HTML. У каждого документа есть ряд характеристик, которые я храню в базе данных: название, дата создания. справочники повторяющихся элементов,...

Стоит ли хранить HTML документ в среднем размеров 1-2 страниц формата А4, приблизительно? Ну убьет ли это скорость базы данных? Думаю, что фильтрация по по атрибутам для выборки листа документов более важно, и не стоит отегащать огромными объемами текста базу данных?

Возможно стоит хранить в базе ссылки на файлы в которых храниться сам HTML? Как лучше поступить. Таблица документов сейчас примерно около 1,000,000, но конечная цифра будет примерно 30 млн.
Как лучше поступить?

Вопрос задан более двух лет назад
456 просмотров

2 комментария

Подписаться 1 Средний 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

6 комментариев

Валентин Бируля @nykakdelishki

30 млн html так страшно?

S3 тоже не идеальное решение, оно нас лишит многих функций которые вероятно были реализованы при реляционных БД.

Ну а по стоимости тут нельзя сказать однозначно, потому что неизвестен размер исходящего трафика

Написано более двух лет назад
mayton2019 @mayton2019

Валентин Бируля, дьявол как всегда кроется в деталях. Говоря о "многих функциях" мы можем овер-инжинерить любую задачу. Я-бы предпочел идти от простого к сложному. Так - проще обсуждать задачу. Иначе мы запутаемся.

Написано более двух лет назад
batyrmastyr @batyrmastyr

mayton2019, Валентин Бируля, для мускуля неприятно, а постгресу по барабану — он жирные значения хранит отдельно.
В постгресе есть какое-то сжатие данных из коробки, есть форки типа PostgrePro где сжатие куда более эффективное, можно класть в базу уже пожатые данные. Ну и в зависимости о того, могут ли они дублироваться, стоит ещё глянуть в Clickhouse.

Написано более двух лет назад
mayton2019 @mayton2019

batyrmastyr, я-бы не стал писать через запятую MySQL и Clickhouse. Это уж слишком разные системы по своим целям и по задачам. Все равно что корабль и самолет.

Написано более двух лет назад
batyrmastyr @batyrmastyr

mayton2019, а где я их писал через запятую?

Написано более двух лет назад
mayton2019 @mayton2019

batyrmastyr, ладно забей.

Написано более двух лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 240 просмотров
2

ответа
PostgreSQL

Простой
Запрос с 1 условием для выбора источника данных?
- 1 подписчик
- 08 апр.
- 135 просмотров
2

ответа
PostgreSQL

+1 ещё

Средний
Как в PostgreSQL организовать синхронизацию данных между геораспределенными копиями?
- 1 подписчик
- 25 мар.
- 264 просмотра
3

ответа
PostgreSQL

Простой
Как оптимизировать запрос с фильтром?
- 2 подписчика
- 13 мар.
- 318 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Как работает Housekeeper в Zabbix?
- 1 подписчик
- 07 мар.
- 257 просмотров
3

ответа
PostgreSQL

+3 ещё

Средний
Как обновить PostgreSQL 1С с 12 до 18 версии на windows?
- 3 подписчика
- 11 февр.
- 633 просмотра
2

ответа
PostgreSQL

Простой
Как увидеть все запросы к postgres?
- 1 подписчик
- 15 янв.
- 288 просмотров
1

ответ
PostgreSQL

+1 ещё

Средний
Почему не запускается контейнер DB в Docker?
- 1 подписчик
- 08 янв.
- 366 просмотров
2

ответа
Linux

+4 ещё

Средний
Runtipi: как корректно переключить встроенный Postgres-контейнер на внешний Postgres (.env / runtipi-cli / docker compose)?
- 1 подписчик
- 26 дек. 2025
- 192 просмотра
0

ответов
PostgreSQL

+1 ещё

Простой
Почему Postgre через pg_stat_activity не показывает запросы?
- 2 подписчика
- 26 дек. 2025
- 178 просмотров
0

ответов
Показать ещё Загружается…

Middle Java Developer

ИТРУМ • Ростов-на-Дону

от 150 000 ₽

VibeCoder / Platform Engineer (Node.js / Kubernetes)

Fabrique • Москва

До 220 000 ₽

Программист (backend Python, Django middle +) - работа очно в офисе в г. Москва

Главгосэкспертиза России • Москва

от 250 000 до 350 000 ₽

Некоторые cms хранят в бд как куски html, так и целые страницы. Или шаблоны. Я к тому, что реализация такая существует и норм.
А как часто записи будут обновляться?

Answer 1 · 2023-11-16 23:34:45

Практика хранить html в базе данных - нормальная.

Вопрос с производительностью в первую очередь решается не размером поля, а репликацией, партиционирование, шардингом и индексацией.

Стоит провести тестирование на 30 млн записей со средним размером А4, если результаты устроют, то ОК, если подумайте над партиционированием/шардированием.

Ну а уже после тестирования если результаты неудовлетворительные(в чем сомневаюсь 30 млн записей, это не очень много) можете попробовать Postgres + S3/mongo

Answer 2 · 2023-11-17 17:11:10

Когда говорят о базе данных, то 99% имеется в виду классическая реляционная БД типа Postgres/MySQL e.t.c.
Такие базы данных создавались для эффективного соединения кортежей и сортировок. Длина DataRow
при этом обычно не больашя (до 8К целый блок таких строк). Эта цифра имеет корни еще в 20м веке.
И если заставить их хранить html (обычно 5-100К) то такая деятельность может быть не очень
удобная для БД. Это как микроскопом гвозди забивать. Очень умная система будет использоваться как
файловое хранилище. Возникает идея - просто взять что-то ориентированное на файлы. Например S3,
BlobStorage, GoogleDrive. Это было-бы дешевле с точки зрения стоимости владения и бэкап делать
проще.

Я понимаю что мы живем в странное время, когда вместо расчета в калькуляторе - запускают гугл или вместо
расчета в MathCad спрашивают ChatGpt, но все-таки программист должен быть немного хозяйственник
и должен брать простые и дешевые решения там где они достаточны.

Answer 3 · 2023-11-16 22:20:42

Базу это естественно не убьет.
Вопрос как хранить влияет на то, как часто и кто будет запрашивать документы, как часто добавлять новые.
Но даже сейчас мне кажется, что 1-2 страницы А4 в HTML будет занимать меньше место в базе, чем отдельными файлами.
Можно посмотреть в сторону монги, и то не факт что имеет смысл.

Стоит ли хранить HTML документ в базе?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт