Имеет ли право такой способ хранения текстов в виде архивов для оптимизации скорости работы?

Question

VisualIdeas @VisualIdeas

Имеет ли право такой способ хранения текстов в виде архивов для оптимизации скорости работы?

Есть идея сделать сайт, где будет много текстов (объявления о работе), сайт будет парсить много источников, по этому будет оч оч много текстового контента. БД будет иметь миллионы записей.
Если хранить эти тексты с описанием вакансий в БД то она очень быстро разрастается и БД начинает подтормаживать....
Есть вариант решения: Хранить в БД только название вакансии и параметры для поиска, а описание хранить в ZIP архивах.

Принцип работы будет такой:
При запросе к информационным страницам (списки) будет браться информация из БД, а при переходе к полному тексту вакансии - уже из файла.

Использовать собираюсь ВПС от ЦифровогоОблака на ССД дисках не очень дорогой (20 уе в мес, 2GB memory, 2 CPU, 40GB SSD)

Возник ряд вопросов:
1) Имеет ли смысл хранить текстовую информацию в файлах, ведь, по идее, это ССД и читаться из файла будет тоже быстро?
2) Имеет ли смысл эти файлы архивировать, ведь файлы не большие и архивированный файл все равно будет занимать примерно столько же места?
3) Имеет ли смысл разбивать архивы по папкам/подпапкам - чтобы не было очень много файлов в одной папке и не тормозило (помню по теории *никсовых систем что нельзя много миллионов файлов в одной папке хранить)?
4) Вообще такое решение имеет право на жизнь? Отговорите меня от него...
5)Стоит ли сжимать файлы или хранить как есть?

Я не Яндекс и кластеров под сайт с посещаемостью в 200 человек я покупать не буду и как сделать это ПРАВИЛЬНО я знаю))) Но хочется сэкономить...

Вопрос задан более трёх лет назад
389 просмотров

4 комментария

Подписаться 2 Оценить 4 комментария

Wexter @Wexter

если уж так хотите сэкономить то тяните тексты с источника напрямую, без сохранения у себя

Написано более трёх лет назад
VisualIdeas @VisualIdeas Автор вопроса

Wexter: ТОгда скорость будет вообще никакая, также источник может удалить вакансию

Написано более трёх лет назад
Юрий @riky

VisualIdeas: если удалит то скорее всего не актуальная

Написано более трёх лет назад
VisualIdeas @VisualIdeas Автор вопроса

SEO - важна отметка НЕ АКТУАЛЬНО но страница должна существовать

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 5

Комментировать

3 комментария

VisualIdeas @VisualIdeas Автор вопроса

Я сейчас раздумываю именно о полном тексте вакансии, не о функционале поиска

Написано более трёх лет назад
Philipp @zoonman

Так вы сожжете процессор распаковывая и запаковывая текст. Ваш контейнер будет тормозить на распаковке. Например краулер гугла с яндексом зайдут на ваш сайт и сожрут все время контейнера, пока тот будет расжимать и отдавать данные на клиент.

Написано более трёх лет назад
VisualIdeas @VisualIdeas Автор вопроса

Philipp: Ну можно не сжимать а просто файлами хранить

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 17 часов назад
- 118 просмотров
1

ответ
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 1 подписчик
- 14 окт.
- 185 просмотров
4

ответа
Веб-разработка

+1 ещё

Средний
Как корректно реализовывать согласие пользователя на обработку персональных данных, в связи с новыми правками?
- 6 подписчиков
- 03 окт.
- 655 просмотров
3

ответа
Веб-разработка

Простой
На сколько важно использовать услугу «Настройка защищенного соединения» от Timeweb?
- 2 подписчика
- 03 окт.
- 202 просмотра
3

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 306 просмотров
1

ответ
Веб-разработка

Простой
Как определить от какого агрегатора пришел webhook?
- 1 подписчик
- 20 сент.
- 187 просмотров
1

ответ
Windows

+1 ещё

Простой
Что за страный файл F, как удалить?
- 5 подписчиков
- 17 сент.
- 9748 просмотров
1

ответ
Хранение данных

+3 ещё

Сложный
Как разделить хранилище на временно использование?
- 1 подписчик
- 16 сент.
- 119 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Можно ли заменить кликанье мышью по веб-интерфейсу cli-командой?
- 3 подписчика
- 13 сент.
- 1068 просмотров
2

ответа
HTML

+4 ещё

Средний
Кривое отображение сайта на iOS-устройствах?
- 2 подписчика
- 13 сент.
- 417 просмотров
1

ответ
Показать ещё Загружается…

Fullstack-разработчик сайтов laravel

WEB ALTERNATIVE

от 65 000 ₽

React разработчик

ITK academy • Нижний Новгород

от 80 000 до 120 000 ₽

Project manager / Resource manager

Regex SEO

от 1 500 до 3 000 $

если уж так хотите сэкономить то тяните тексты с источника напрямую, без сохранения у себя
Wexter: ТОгда скорость будет вообще никакая, также источник может удалить вакансию
VisualIdeas: если удалит то скорее всего не актуальная
SEO - важна отметка НЕ АКТУАЛЬНО но страница должна существовать

Answer 1 · 2017-01-09 03:06:42

Имеет ли смысл хранить текстовую информацию в файлах, ведь, по идее, это ССД и читаться из файла будет тоже быстро?

Смысла в вашем случае нет. Почитайте на досуге, что такое inode и что происходит, когда они заканчиваются.

Имеет ли смысл эти файлы архивировать, ведь фалы не большие и архивированный файл всеравно будет занимать примерно столько же места?

Не имеет. Если на странице надо отобразить например 10 вакансий, а одну из них в данный момент редактирует другой пользователь вам придется еще обмазаться блокировками чтения записи, так же потратить кучу времени на разархивацию данных каждый раз. Это называется "просрать ресурсы".

Имеет ли смысл разбивать архивы по папкам/подпапкам - чтобы не было очень много файлов в одной папке и не тормозило (помню по теории *никсовых систем что нельзя много миллионов файлов в одной папке хранить)?

Для хранения файлов подобный подход имеет право на жизнь.

Вообще такое решение имеет право на жизнь?

Для вашей задачи - со всей силы нет. Полнотекстовый поиск вы не обеспечите, для организации контроля конкурентного доступа вам придется городить свои костыли, архивация и деархивация будут занимать много времени

Answer 2 · 2017-01-09 01:15:01

Имеет смысл использовать базу данных, умеющую их сжимать. Например MongoDB сжимает данные примерно в 2 раза от их размера на диске при использовании WiredTiger и полнотекстового индекса. Не знаю, как с сжатием дела в MySQL или PostgresQL. Наверняка что-нибудь уже есть.
Для сайтов о работе поиск вакансий критически важный функционал, от работы которого полностью зависит успешность вашего проекта.

Ответы на вопросы

Не имеет. Работа с файлам отнимет большую часть времени на разработку проекта, особенно операции редактирования, обновления информации.
Архивировать нет смысла, исключение могут лишь составить разного рода прикрепленные документы в формате doc, xls и т.д., которые хорошо сжимаются и которые технически проще отдавать с диска напрямую. Можно архивировать в gzip в виде сгенерированной странички. Тогда nginx будет ее напрямую клиенту отдавать. Сэкономите на месте и времени CPU.
Имеет смысл разбивать на папки, если у вас там будут миллионы файлов в папки. Просто из банального удобства навигации. В остальном вы ограничены количеством inodes.
Решение не самое красивое, но имеет право на жизнь. Я бы так делать не стал.
Сжимать файлы не стоит. Используйте MongoDB, она умеет все сжимать по умолчанию. В ней есть полнотекстовые индексы. Если надумаете дальше развивать проект, то его будет легко смаштабировать.

Я не занимаюсь рекламой MongoDB. Я использую ее уже на протяжении 3-х лет в продакшене под серьезной нагрузкой и знаю ее сильные стороны.
По поводу базы - если очень хочется, можете архивировать и хранить архивированные файлы прямо в том же MySQL. Просто когда будете вытаскивать данные при поиске, не делайте SELECT * Выбирайте только требуемые поля. И про индексы не забудьте.

Answer 3 · 2017-01-09 01:38:10

1) Имеет ли смысл хранить текстовую информацию в файлах, ведь, по идее, это ССД и читаться из файла будет тоже быстро?

да, стразу в гзипе с nginx.org/en/docs/http/ngx_http_gzip_static_module.html

2) Имеет ли смысл эти файлы архивировать, ведь фалы не большие и архивированный файл всеравно будет занимать примерно столько же места?

да

3) Имеет ли смысл разбивать архивы по папкам/подпапкам - чтобы не было очень много файлов в одной папке и не тормозило (помню по теории *никсовых систем что нельзя много миллионов файлов в одной папке хранить)?

нет

5)Стоит ли сжимать файлы или хранить как есть?

просто для отдачи - сжимать, для поиска и обработки - не сжимать и хранить в бд

быстро разрастается и БД начинает подтормаживать

мда

Answer 4 · 2017-01-09 01:54:29

1) Имеет
2) Не архивировать
3) Это на вкус и цвет
4) можно было бы "запаковать2 часть информации, например табл1:
01 - повар
02 - сторож
табл2:
01 - Москва
02 - Питер
и т.д.
сам файл именовать: 01-01.txt или 02-01.txt
При поиске можно уже "генерировать имя файла".
5) не стоит хранить в zip
6) чтобы боты не порушили сайт использовать в robots.txt директиву Crawl-delay

Answer 5 · 2017-07-01 14:20:11

Есть вариант решения: Хранить в БД только название вакансии и параметры для поиска, а описание хранить в ZIP архивах.

В целом, хранение названия вакансии отдельно от подробного описания вакансии - правильный подход. И сжимать текстовые данные - тоже правильно. Вот только хранить описания в файлах ZIP не стоит по причинам, описанным index0h . Правильно хранить данные в СУБД. А сами текстовые данные можно сжимать любыми алгоритмами сжатия перед занесением. Также хочу прояснить, что ZIP - это контейнер файлов, в котором могут использоваться различные алгоритмы сжатия, от Shrunk и Deflate до таких как PPMd.

В InnoDB СУБД MySQL 5.7 сжатие может применяться прозрачно при помощи директивы COMPRESSION:
CREATE TABLE t1 (c1 INT) COMPRESSION="zlib";

Поскольку вакансии обычно повторяются из месяца в месяц, от одной доски сообщений к другой, то скорее всего имеет место множественное дублирование одних и тех же вакансий. В таком случае можно применить технику оптимизации под названием "дедупликация данных".
Для этого можно вычислять хеш-сумму криптографическими хеш-функциями, такими как SHA-1. Одни и те же описания вакансий будут иметь ту же хеш-сумму, что позволит хранить лишь одну копию описания. В таком случае данные буду разрастаться гораздо медленнее, чем без этой техники.

Связи можно хранить так:
job_vacancies(id, ...) <-> relations(source_id, packed_contents_id) <-> packed_contents(id, hash_sum, blob)

С названиями вакансий вряд ли имеет смысл делать аналогично.

Имеет ли право такой способ хранения текстов в виде архивов для оптимизации скорости работы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт