У меня только один вопрос, опенсорсный whisper (лицензия mit на код, и apache 2.0 на веса сети) совсем не подходит?
Мне казалось, что с их публикацией openai, другие проекты почти потеряли свой смысл (допускаю что существуют с более высоким качеством, например в узких облостях или с шумами, но не уверен что яндекс speech такой)
Vadim Stepanenko, sql в пределах одной команды, при использовании индекса, способна делать и проверку на наличие и вставку новых данных
как я уже сказал, не советую использовать одну таблицу, партицируйте штатным или искусственным методом, разделяйте по нодам (например если выбор ноды определить через хеш пользователя, то один и тот же пользователь не будет попадать в разные базы, а значит не потребуется проверять его уникальность по всем нодам, а только в пределах одной).
Разделение по нодам имеет смысл делать если одна не будет справляться, но нагрузочные тесты придется проводить заранее
Похожее поведение помню на десктопной материнке было из-за плохого охлаждения южного моста... это конечно датацентр и серверное железо, но нет причин не винить дисковый контроллер или саму материнскую плату, вероятность поломки железа не нулевая.
Можно, если это критично для тестов, замерять температуру, всю до куда можно дотянуться, со скважностью в десятые секунды.
Если данные нужны а забрать не получается, можно попробовать лимитировать скорость чтения в половину от максимальной.
может они понимают что это для бизнеса?
Вы то создаёте через vpn, а пользователи им пользуются тоже через него? А на машинах пользователей не один и тот же домен контроллер? Почти наверняка признаков бизнеса 'пруд пруди'
может они понимают что это для бизнеса?
Вы то создаёте через vpn, а пользователи им пользуются тоже через него? А на машинах пользователей не один и тот же домен контроллер? Почти наверняка признаков бизнеса 'пруд пруди'
Llama405 требует для работы 256гб ram, лучше больше (512 - без потери качества 8бит квантизация, 1024 - возможность дообучения и тюнинга но на cpu это бессмысленно, так как очень медленно, годами).
Ты можешь собрать необходимы объем памяти на одной машине, (gpu - при наличии десятков миллионов рублей и серых каналов провоза дефицитного железа через таможню).
Десктопное железо можно собрать до 128гб ram, можно у китайцев найти старые чипы и иатеринки как бы серверные но десктоп и собрать очень медленный сервер с 256-512.
По ссылке я дал мой ответ, можно собрать несколько нод (из 3 или лучше 4 компьютеров) и объединить их в сеть, лучше 5-10гбит сетевые карты, без сетевого свитча понадобится по 2 сетевые карты на машину (можно на первой и последней одну сетевую, а вторая из материнки), llama cpp умеет распределять нагрузку между машинами, но эффективнее всего при одновременных нескольких запросах batching (разница в скорости будет до 10 раз)
GavriKos, материнские платы с 256-512гб оперативной памяти это только серверные, оперативная память серверная... это дороже нескольких десктопов раза в 4 (но можно найти БУ).
p.s. найди мне машину с таким объемом памяти за 20т.р.
Ещё советую, если есть возможность работать с адекватным языком программирования, то выбери его, а не макросы экселя... Никто тебя не заставляет решать все задачи только там
CityCat4, хотелось бы подчеркнуть, что если два-три друга, прокинут по балкону провода или поделятся wifi паролями, никому они нафиг не нужны (за исключением случаев когда кто то из них решит заняться очевидной преступной деятельностью, но это не вопрос сетей).
Слышал (и это говорят большая редкость) что провайдер, желающий предоставлять услуги wifi в доме, может, изучив эфир, запретить использование наружных радиоканалов (например wifi через улицу), но повторяю это очень большая редкость и это вопрос борьбы с 'конкурентами', что явно не ситуация автора вопроса, я верно понимаю у него вообще нет провайдеров.
Какая ос?
В биосе выбран способ загрузки legacy mbr или efi (это может по разному называться но сразу видно о чем речь)?
Если efi - то за настройку отвечает установщик ОС. В linux - grub, точнее можно обойтись efibootmgr но лучше пусть все сделает grub автоматом, в windows, ну например так
Вполне возможно что веб версии chatgpt (там механизмы плагинов)/claude и т.п. под капотом делают очень много всего, как минимум майкрософтовский copilot это комплекс нейронок и делает кучу запросов во время беседы
p.s. советую порыть github, возможно там уже есть готовые реализации. Алгоритмов много, например RAG позволяет работать с не структурированной базой знаний (это твой большой файл), однократно его проанализировав (то что я описал) и уже после, для каждого вопроса пользователя, выбирать из этой базы только нужную информацию, и добавлять ее в контекстное окно.
p.p.s. осторожно, большое количество информации в контекстном окне ЗНАЧИТЕЛЬНО ухудшают качество работы ИИ, разные нейронки по разному косячат, пропускают информацию из разных частей контекстного окна (а так же зависит от расстояния между вопросом и требуемой информацией, чем дальше тем хуже), поэтому в первую очередь, постарайся уменьшить размер файла другими средствами, более надежными чем (даже в лучшем) 10%-20% ошибок
Kibar Jafarguliyev, ну блин, атрибут с пустым значением не выводится, какие проблемы... об этом я и говорил, что сначала собирай данные в свободном виде, а потом, когда пропарсишь весь сайт, можешь понять список всех атрибутов
Не понимаю где у тебя разные структуры, обе страницы идентичны по структуре, даже table присутствует там где записей нет. Название классов элементов удобные, выделяй элементы по селектору и складывай в свою структуру.
p.s. обычно, на время ИССЛЕДОВАНИЯ сайта, структуру данных не фиксируют, мало того, наименование полей структур, например список атрибутов, берут прямо из текста со страницы,.. а уже когда значительно данные будут загружены, уже можно полученные данные преобразовывать к требуемому виду, например уже другим скриптом.
Обычно загрузка данных и их анализ это разные задачи, решаемые параллельно.
p.p.s. совет, вместе с данными, сохраняй и используй положение их элементов на странице (метод getBoundingClientRect, в т.ч. всех его предков, с информацией о них, например имя тега, ид и классы), очень помогает в анализе, когда структура данных меняется
brar, лет 20 назад на одной дипломной работе (случайно услышал), был как раз метод определения авторства текста, так вот алгоритм был примерно таким, исследователь придумывал разные численные признаки, типа количество знаков препинания, средняя длина педложения, соотношение гласных к согласным и прочий бред, десятки признаков. И уже эти признаки использовали для обучения то ли нейронки то ли чего то по проще. Поразительно что для определения авторства хватало именно таких абсурдных признаков, никак не связанных со смыслом.
Мне казалось, что с их публикацией openai, другие проекты почти потеряли свой смысл (допускаю что существуют с более высоким качеством, например в узких облостях или с шумами, но не уверен что яндекс speech такой)