я неопытный разработчик, так что не сочтите за грубость, но почему писать сразу оптимизированный код хуже, чем ждать, пока он начнёт тормозить?
поскольку ты - неопытный разработчик - твои предсказания относительно оптимизированного кода базируются
не на личном опыте а на различного рода статьях, блогах, видосах и так далее. Все эти статьи нужно
проверять и протаскивать через практическоге доказательство правоты. Грубо говоря - ставить эксперимент
как в физике.
Я тебе предлагаю ПОСТАВИТЬ ЭКСПЕРИМЕНТ. Напиши две реализации кода. Как есть. И с пулом.
После этого приходи сюда с выводами.
Пиши боевой код и тестируй с профайлером. Потому что такие улучшизмы - только портят проект.
Я по себе знаю. Я тоже люблю пооптимизировать на пустом месте но вовремя бью себя по рукам
чтоб ничего такого не делать.
Ну обычно токены - это подмножество текста в какой-то канонической форме. Например Буря мглою небо кроет...
токенизируется в буря мгла небо крыть
Текст чистится от знаков и символов и предлогов и междометий и вообще от всего что создают
дубликацию символов. Для простоты их можно тегами называть.
Вот. Потом каждое слово хешируется в 18-20 битное целое число. Так рекомендуют теоретики
текстового поиска. Почему именно такое - я не знаю. Просто они решили что 20 бит покрывает
любой набор текстового документа. Потом числа представляются как координаты в 2048 мерном
пространстве. Единичные координаты. Типа
{ 0, 1, 0,0,0,0, ..................... 1, 0 }
Будут активироаны 4 единички. Для нашего случая. Потом ты собираешь все такие векторы в обучающий датасет. Кластеризуешь любым известным методом с параметром 50 центров кластеров. И получаешь
50 многомерных точек которые отражают скопления токенов.
Как превратить эти облаки тегов в вопросы - я не знаю. Но у тебя уже есть уже десятки тысяч сообщений
сгруппированные по этим 50 центрам.
Вот такой алгорим.
Возможно современные т.к. языковые модели видят глубже и работают со склонениями падежами и
языками но то что я преложил решает примерно 80% работы и осталось вот придумать осмысленный
вопрос.
По поводу привлечения современных умных чятов я ничего не могу сказать. Надо покупать нормальную
лицензию и пробовать.
Di Lee, у Кафки есть 3 разных режима подтверждения сообщений. Это в некторой степени регуляторы скорости. Но мы можем рассуждать о них как о гарантах надежности а скорость здесь просто побочный эффект. Кроме того Кафка при отсуствии перебалансировок может достигать бесконечной скорости если ты используешь partitioning. Это архитектурный вопрос и саму возможность партишенинга надо обсуждать с разработчиками продюсеров и консюмеров. У кафки свой собсвтенный ни с чем не совместимый сетевой протокол. Это недостаток. А RabbitMQ использует AMQP. Это стандарт обмена сообщений в банковской среде. Старый. Консервативный. Его любят за это. Если смотреть широко - и искать совместимости то кролик будет предпочтительнее.
Может быть кроме пайки там еще было травление плат в кислотах. Кислотная пайка.
Лаки, клеи ... да вообще любая гаражная активность должна рассматриваться.
поскольку ты - неопытный разработчик - твои предсказания относительно оптимизированного кода базируются
не на личном опыте а на различного рода статьях, блогах, видосах и так далее. Все эти статьи нужно
проверять и протаскивать через практическоге доказательство правоты. Грубо говоря - ставить эксперимент
как в физике.
Я тебе предлагаю ПОСТАВИТЬ ЭКСПЕРИМЕНТ. Напиши две реализации кода. Как есть. И с пулом.
После этого приходи сюда с выводами.