БД (хранилище) для документов с GUI, ранжированием и поиском. Какие фреймворки или готовые решения есть?

Question

imageman @imageman

Проектирование программного обеспечения

БД (хранилище) для документов с GUI, ранжированием и поиском. Какие фреймворки или готовые решения есть?

Имеются некоторые однотипные данные:

объявления о работе;
новости;
персональные дела...

Хочется сделать систему в которой:
а) новости я добавляю через python;
б) через web интерфейс, могу всё просмотреть (с настройкой фильтрации, с поиском, ранжированием) и, главное(!), я могу оценить новость;
в) все последующие новости могут ранжироваться в зависимости от ранее поставленных оценок (к примеру методом ближайшего соседа через нечеткое сравнение). Этот пункт, пожалуй, самый важный - мне нужно малоинтересные новости задвинуть вниз, основываясь на моих предпочтениях.

Может кто-то подобное видел? Какие технологии (с прицелом на Питон) имеет смысл смотреть? К примеру наткнулся на Elasticsearch, Django Elasticsearch backend и Kibana, Arctic, Marvel для web интерфейса. Но я ни с чем подобным не сталкивался.
PS. проект домашний, будет развернут локально, больших вложений хочется избежать.

Добавка: возможно кто-то подскажет неожиданное решение через почтовый клиент, через Notion, Obsidian? Что-то готовое для работы с заметками, но так, что бы я мог добраться к заметкам через Питон. Объем заметок меньше гигабайта.

Вопрос задан более двух лет назад
1086 просмотров

Комментировать

Подписаться 6 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

4 комментария

imageman @imageman Автор вопроса

Postgresql в чистом виде для меня слишком жирно. Всё решение локальное однопользовательское, размер всех данных максимум гигабайт (скорее всего много меньше).

Хотелось бы что-то, что я мог бы сделать за пару дней. Т.е. полноценное написание всего кода не очень годится. Я думал что-то вроде:
1. Настройка формата хранилища (дата, заголовок, тело, ранг, оценка пользователя)
2. Настройка записи в БД через питон (тут я пишу свой скрипт сбора данных)
2.1. Скрипт должен иметь доступ к оценкам
2.2. В идеале нечеткий поиск средствами СУБД (фреймворка)
3. Пользовательский интерфейс. Приоритет - лёгкость настройки. Чтение, выставление оценки, возможно установка флажков или звёздочек, фильтрация, удаление, поиск. Т.е. что-то, что очень сильно напоминает интерфейс почтового клиента, за исключением пользовательских оценок.

Написано более двух лет назад
d'Ivan @2ord

1. Настройка формата хранилища (дата, заголовок, тело, ранг, оценка пользователя)
2. Настройка записи в БД через питон (тут я пишу свой скрипт сбора данных)
2.1. Скрипт должен иметь доступ к оценкам

Скрипт работает с СУБД, где хранятся все данные. Через (обычно) фреймворк или напрямую через драйвера СУБД.

2.2. В идеале нечеткий поиск средствами СУБД (фреймворка)
фреймвор это лишь прослойка над возможностями СУБД. Он сам по себе магическим образом не сделает всю работу и кофе не сварит.

3. Пользовательский интерфейс. Приоритет - лёгкость настройки. Чтение, выставление оценки, возможно установка флажков или звёздочек, фильтрация, удаление, поиск. Т.е. что-то, что очень сильно напоминает интерфейс почтового клиента, за исключением пользовательских оценок.
Складывается впечатление, что нужно готовое решение. Увы, я здесь не помощник.

Написано более двух лет назад
imageman @imageman Автор вопроса

Складывается впечатление, что нужно готовое решение

Всё так. Даже в заголовке об этом упомянуто. И фреймворки ищутся максимально специализарованные под мои хотелки. Так-то да, я примерно представляю как это сделать, но так же представляю сколько (много, очень много) времени я буду разрабатывать вменяемый пользовательский интерфейс.

Импорт (скрейпинг) данных - относительно просто (5 часов)

Выставление ранга, ранжирование, методом ближайших соседей - наивная реализация за пару часов, FAISS подольше. Векторные БД еще подольше.

Построение пользовательского интерфейса - долго (40 часов и более).

Есть такой продукт Obsidian - локальное (или облачное) ведение заметок с markdown разметкой, все заметки хранятся в виде текстовых файлов. Для моей задачи вполне приемлемое решение. Но я не знаю как сортировать по полю Ранг.

Notion - немного прикоснулся, но не вижу может ли быть локальное решение? И будет ли нужный мне функционал?

Почтовые клиенты - почти отлично (хороший пользовательский интерфейс, возможность поиска и, у некоторых, фильтрации, разбиение по папкам и т.п.), но нет возможности выставить оценку.

Нашел упоминание Joplin, TiddlyWiki, AirTable, TreeDBNotes, KeyNote NF. Наверняка я ещё что-то упустил.

Что-нибудь ещё подобное есть?

Написано более двух лет назад
d'Ivan @2ord

Тогда Wagtail, WordPress?
Наверняка плагинами можно покрыть.

Написано более двух лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Проектирование программного обеспечения

+2 ещё

Простой
Стоит ли собирать модульного десктоп-ассистента, где каждый компонент — отдельный подключаемый модуль?
- 1 подписчик
- 56 минут назад
- 25 просмотров
0

ответов
Проектирование программного обеспечения

Простой
Единые сервисы для нескольких продуктов норм или стрем?
- 1 подписчик
- 21 июн.
- 129 просмотров
3

ответа
Веб-разработка

+2 ещё

Средний
Как правильно хранить видео в Django?
- 2 подписчика
- 28 мая
- 463 просмотра
3

ответа
Django

+2 ещё

Простой
Можно ли на Django сервере разместить базу данных?
- 1 подписчик
- 26 мая
- 189 просмотров
4

ответа
Проектирование программного обеспечения

+2 ещё

Сложный
Как правильно организовать real-time обновление в огромном проекте?
- 1 подписчик
- 17 мая
- 149 просмотров
3

ответа
Программирование

+1 ещё

Простой
Проект для программирования?
- 2 подписчика
- 27 апр.
- 878 просмотров
9

ответов
Проектирование программного обеспечения

Средний
Что входит в раздел commands в CQS?
- 1 подписчик
- 30 мар.
- 76 просмотров
1

ответ
Проектирование программного обеспечения

Простой
Что использовать для outbox паттерн?
- 1 подписчик
- 12 мар.
- 110 просмотров
1

ответ
Проектирование программного обеспечения

Простой
Как избежать излишнего усложнения на ранних этапах развития SaaS-проектов?
- 2 подписчика
- 03 мар.
- 164 просмотра
2

ответа
C++

+2 ещё

Простой
Заголовочные файлы в Си нужны только для интерфейса?
- 3 подписчика
- 26 февр.
- 668 просмотров
5

ответов
Показать ещё Загружается…

Answer 1 · 2024-07-01 13:49:51

1. pandas для манипуляций с данными и построения пайплайна.
2. nltk + scikit-learn для работы с текстом (ранжирования, трансформации в векторное пространство, алгоритмы сравнения для различных метрик и т.д)
3. plotly+dash (для веб интерфейса с возможностью собрать красивый фронт на python (react, html, css) на все это есть python обертка) + dash bootstrap components коллекция крутых готовых компонентов.

Примеры готовых качественных веб приложений Галерея код есть на гитхаб, там же найдешь.

БД тоже подсоединяется без проблем, примеры в документации. Вообще очень упрощая dash это способ превратить модели машинного обучения в веб приложение. Со всеми сопутствующими потребностями.

Answer 2 · 2024-07-01 17:32:36

б) через web интерфейс, могу всё просмотреть (с настройкой фильтрации, с поиском, ранжированием) и, главное(!), я могу оценить новость;
в) все последующие новости могут ранжироваться в зависимости от ранее поставленных оценок

Дополнительное поле rank
б) сохранение оценки в хранилище
в) чтение из него
Добавляешь дополнительные критерии (фильтрация и дате, названию и пр.) и должно быть достаточно для поиска.

Сущности: новости, оценки.
категории (рубрики) , для простоты, можно сделать в качестве поля в "новости".

Sphinx Search, OpenSearch/ElasticSearch, Apache Solr - с одной стороны, они на слуху, но настройка и сопровождение могут быть обременительными.
Возможно, достаточно и Postgresql. Тут надо проверить насколько эффективно будет решение с точки зрения поиска.

Компоненты:
1. DB
2. шаблоны Django (для простоты) или REST API с веб-интерфейсом отдельными приложениями

Разворачивать решение можно на Docker Compose.

Добавлено
Если нужно взять полуготовые решения, тогда Wagtail, WordPress могут подойти.

Answer 3 · 2024-07-11 15:17:02

А просто CMS не подойдет? По описанию она делает все что нужно. Вопрос только в кол-ве документов. Если их несколько десятков тысяч, то будет подтормаживать

БД (хранилище) для документов с GUI, ранжированием и поиском. Какие фреймворки или готовые решения есть?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт