Ответы, понравившиеся пользователю iva2000

Какая локальная нейросеть учится на моей базе документов?

rPman @rPman

Главное ограничение современного ИИ а основе gpt - это размер контекста, а именно, сколько влезет информации в один запрос. Чем больше размер контекста, тем хуже качество, причем падение стремительное. Открытые сети, которые можно запустить локально, обычно основаны на 8к-16к токенов, и даже если заявлены 128к или миллион, то качество будет очень низкое, ИИ будет путаться и пропускать данные, выдумывать свои... что критично для и без того не очень качественные результаты.

Если в пределах одного документа на ручных тестах результат тебя устраивает, значит необходимо разработать систему, которая будет предварительно анализировать эти документы (условно строить индекс), и потом каждый запрос пользователя анализировать и пытаться понять, какие документы нужно а какие пропустить. И вот тут огромный простор для экспериментов.

Самое тупое но достаточно качественное - по очереди для каждого документа задаешь свой вопрос, ответы складываешь в контекстное окно (предварительно пропуская через фильтр - 'является ли это ответом на мой вопрос '...'?'), итоговое контекстное окно снова дополняешь вопросом, и выводишь ответ. Это почти самый точный способ (не подходит, когда для ответа нужна информация сразу из нескольких документов) но очень долгий/дорогой, если база документов большая.

Поэтому для каждого запроса нужно исключать из анализа ненужные документы. Например уже названный RAG, по простому, все документы делится на кусочки (условно абзацы или предложения), по каждому строится числовой вектор смысла Embeddings (разные, есть готовые на основе трансформера), и то же самое делать для вопроса пользователя... полученные вектора сравниваются, вычисляется расстояние, меньше расстояние - ближе по смыслу. Таким образом простым поиском можно найти какие части документа будут скорее всего полезны для ответа на вопрос. А дальше огромное поле для вариантов, например, загружаешь в контекстное окно целиком документ, вектора которых близки по смыслу с вопросом или их больше количественно (суммирование тоже нужно с умом делать). Мне нравится идея, когда, документы (несколько) которые подходят, прогоняют по одному отдельным промптом с вопросом - что из этого документа полезно для вот этого вопроса... собранную информацию затем заливаешь в итоговое контекстное окно и пусть оно разбирается.

Есть еще подход, когда изначальный список документов долго и упорно обрабатывается и на его основе строится древовидная структура - Document Hierarchy Generation, Knowledge Graphs, Hierarchical topic tree и прочее (погугли что там выскикавает на эти названия) и уже с ее помощью можно принимать решение, какие именно дукументы нужны.

Для небольшого количества документов можно предварительно использовать самморизацию этих документов или их частей, образуя некоторый каталог-выжимку, сложив которую в один запрос можно задавать вопросы уже к нему.. т.е. исходный вопрос задаешь к этой выжимке ('вот список документов с кратким описанием, какие из них необходимо прочитать что бы получить ответ на следующий вопрос: ...',.. нормальные gpt сети мало галлюцинируют, если в тексте будет идентификатор документа и текст по нему.. но к примеру слабые 8b модели работают плохо (но я пробовал давно, возможно уже deepseek distilled модели уже лучше с этим)

Ответ написан 01 февр.

Комментировать

Какая локальная нейросеть учится на моей базе документов?

mayton2019 @mayton2019

Bigdata Engineer

Я думаю можно. Но действительно ли вам нужна нейросеть? Может Elastic Search или Sphinx
закроют все потребности?

А нейросети обычно выдают не точные а вероятностные ответы. И если с текстом еще хорошо
то с цифрами там могут быть сильные неточности. Поэтому как бухгалтерия это точно не пройдет.

Ответ написан 31 янв.

8 комментариев

Какая локальная нейросеть учится на моей базе документов?

Refguser @Refguser

Решения для бизнеса: корп.сайты, ИМ, боты и пр.

Можно ли на обычный компьютер Intel i7-10750H 2.60GHz 8,00 ГБ установить нейросеть,

Установить - можно. Сколь-нибудь эффективно работать - нет. Потому как для генеративного ИИ нужны хорошие GPU. А тут какой-то древний комп.

ЗЫ. Так точно было до появления deepseek. У него по обзорам требования поменьше, но как оно на деле...

UPD

Если мой древний компьютер не годится, можно ли заказать услугу хостинга для моей личной нейросети, и при этом быть уверенным в конфиденциальности своих учебных данных?

Да можно. Например у immers.cloud даже есть разные готовые конфиги для нейронок (правда, эти готовые конфиги для графики). Причем там можно арендовать почасово (но если нужно сохранять данные между сеансами, то нужно правильно бекапить. Читайте хелпы)

Ответ написан 31 янв.

Комментировать

Какая локальная нейросеть учится на моей базе документов?

Виктор Петров @vpetrov

частный SEO-специалист

Почитайте про RAG, GPTs и векторные базы данных.
Но вообще конфиг для локальной LLM слишком слабый. Работать-то будет (скажем, ollama), но медленно, очень медленно.

Ответ написан 31 янв.

Комментировать

Как объявить лицензию ПО?

Василий Банников @vabka

Судя по всему, минкомсвязи знает, что такое "открытые лицензии".
Так что просто можно следовать методическим рекомендациям: https://ru-ikt.ru/metodic#!/tab/595058081-1
Обязательно - чтобы информация об открытой лицензии была на твоём сайте, с которого пользователь будет брать дистрибутив твоих макросов.

Кажется, проблем с тем что текст лицензии идёт на английском языке, нет - можно взять любую из популярных лицензий на твой вкус и включить её в твои макросы так, как требует сама лицензия. (где-то достаточно будет файлика в архиве, где-то надо будет продублировать текст в каждом файле, где-то достаточно будет ссылки на лицензию).

Например можно взять GNU GPL 3.0 лицензию, раз хочется вирусности "производные произведения разрешены с сохранением лицензии".
Если у эксперта при проверке возникнут вопросы или замечания - действовать уже исходя из них.

UPD: только после ответа CityCat4 понял, что "разрешены с сохранением лицензии" не очень однозначно.
1. Если производное произведение должно распространяться под той же лицензией, что и основное, то это gnu gpl
2. Если производное произведение должно просто включать в себя текст оригинальной лицензии и упоминание, то тогда MIT / Apache / BSD 3 clause

Ответ написан более года назад

1 комментарий

Как объявить лицензию ПО?

Кот Абсолютный @CityCat4

Жил да был черный кот за углом...

Это в точности BSD 3-clause Непонятен только пункт про "сохранение лицензии". Сохранение типа лицензии, то есть запрещается менять условия лицензирования?

Ответ написан более года назад

2 комментария

Как дружить сторонние ZigBee с Яндекс станцией?

Сергей П @trapwalker

Программист, энтузиаст

У меня вот такой вот хаб: https://aliexpress.ru/item/1005005669706698.html?s...
Через интеграцию Tuya с алисой мгновенно подхватывает все устройства, и bt и зигби.
Нареканий к нему вообще никаких нет. Накупил кучу дешманских блютусных датчиков из раздела всё за 180 на али (https://aliexpress.ru/item/1005005234497671.html?s...). Всё прекрасно работает. Вкупе с вайфай-розеткой отлично управляет вентиляцией в ванной по влажности.

Весь свет у меня вот на таких модулях: https://aliexpress.ru/item/1005005721310513.html?s...
Дёшево (брал по 180₽ и сейчас если попадается, то беру, но важно, чтобы именно Tuya), зато очень сердито. Поддерживает проходные выключатели, помещается в подрозетник если надо, управляется обычным выключателем. Один минус - wifi, но работают они очень хорошо, так что это от перфекционизма, что ли... Есть такие же варианты с зигби, но они дороже, у меня один есть, он еще не подключен.

У меня Алисы старые, ещё без поддержки зигби, так что не знаю как она с этим протоколом будет работать. Шлюз что выше показывал отлично решает вопрос. Ещё есть розетка зигби, она стоит в другом конце квартиры чтобы расширять сеть, однако такое ощущение, что bt работает дальше.
В хозяйстве одна только яндекс-розетка. Никакого смысла брать дорогую вместо дешевых вайфай не вижу.
В общем, у меня сплошной зоопарк из (перманентно) wifi, zigbee и bluetooth устройств, но работает всё на редкость неплохо. При этом я еще HomeAssistant не настраивал. Не знаю как у моих приборов будет с локальностью. Роутер все вайфаи тянет без проблем, хотя перечень клиентов в админке пугал поначалу.

Ответ написан более года назад

Комментировать

Как дружить сторонние ZigBee с Яндекс станцией?

Rsa97 @Rsa97

Для правильного вопроса надо знать половину ответа

Универсально - ставить свой сервер с Zigbee2Mqtt и/или Home Assistant и дружить его как с устройствами, так и с Алисой.

Ответ написан более года назад

1 комментарий

Какова возможность синхронизации часов реального времени в stm32 с системным?

Владимир Коротенко @firedragon

Не джун-мидл-сеньор, а трус-балбес-бывалый.

A windows 10 computer synchronises with a time server to update the clock at specific intervals. In case of computers that are part of a domain, the default interval is 1 hour. But in case of stand-alone systems the update interval is 7 days.

Едем дальше, вам достаточно забирать время каждые 10 минут потому как RTC максимально будут отставать на секунду в сутки.
Но даже этого можно избежать.
1. Запустите на контроллере передачу временных меток
2. на компе фиксируйте эти метки + метки компьютера
3. если есть расхождение между rtc Контроллера и компьютера, то сделайте таблицу правок за период.

Итого псевдокод для контроллера:
1. Инициализация соединения с компьютером
2. Первичная синхронизация
3. Инициализация обработчика прерывания который будет подводить часы

Хотя можно и проще: посылайте в контроллер временные метки.

На скорости 115200 один пакет прилетит за ~0.14 ms

UPD посмотрел спецификацию чипа.
RTC: subsecond accuracy,
То есть RTC на плате дает только доли секунды так что где то точность у вас будет в районе 100 мс и выше

А что за бизнес задача?

Ответ написан более двух лет назад

2 комментария

Почему в некоторых мониторах 144 Гц?

Алексей Черемисин @leahch

3D специалист. Dолго, Dорого, Dерьмово.

Просто в компухтерной технике принято делать умножители и делители кратные двойке.
Взяв стандартную частоту для кинематографа в 24 кадра в секунду и умножив на 6, получим искомое.

Ответ написан более двух лет назад

Комментировать

Какие команды G-кода позволяют запрашивать отчет; и какие передавать параметры?

Borys Latysh @nava2002

Инженер

Эта задача решается на уровне контроллера управления станком (Mach3 например) который уже непосредственно управляет механической частью.
Дальше ваше решение. Вы:
Либо используете существующий инструментарий (контроллер + ПО Mach3, например) и будете жестко ограничены возможностями данной программы, но возможно найдете механизм интеграции ваших требований в это ПО.
Либо делаете свою электронику (контроллер) и к нему пишете управляющее ПО и на выходе получите то что вы предусмотрите вашим "планом ". (задача безусловно амбициозная)
В обоих случаях G-код будет на входе вашего ПО управления станком ( или Mach3 ) полученный как результат работы CAD программы, которых много есть.
На уровне G-кодов станки должны быть совместимы (если конечно вы планируете с этого заработать)

Ответ написан более двух лет назад

Комментировать

Какие команды G-кода позволяют запрашивать отчет; и какие передавать параметры?

forthuse @forthuse

G-код не для таких хотелок, а то что Вы спрашиваете обычно реализуется в сервисных режимах настройки станка описанных в отдельных документах на конфигурирование станка и в привязке этих параметров к используемому ЧПУ.

Ответ написан более двух лет назад

Комментировать

Какая камера имеет clean hdmi, и без ограничения по времени работает от блока питания?

semen-pro @semen-pro

Sony vg-20 б/у или аналоги, фотик брать не стоит

Ответ написан более двух лет назад

Комментировать

Какой вариант защиты прошивки STM32 от копирования верен?

semen-pro @semen-pro

У STM32 есть режим кирпича, при котором теряется возможность залить новую прошивку или прочитать старую, т.е. полностью отключает этот интерфейс. Это можно сделать изнутри прошивки.

Ответ написан более двух лет назад

2 комментария

Какой "USB-ключ" использовать для защиты программы от копирования?

Антон Иванов @karminski

Senior React.JS Developer

Вообще вам нужен вот этот ключ https://www.guardant.ru/
Аналоги есть, но это вроде как российское производство, что вероятно немаловажно.

Ответ написан более двух лет назад

Комментировать

Какой вариант защиты прошивки STM32 от копирования верен?

boatcall @boatcall

DS2401. "Unique, factory-lasered and tested 64-bit registration number (8-bit family code + 48-bit serial number + 8-bit CRC tester);guaranteed no two parts alike". HP, вроде, ставят такие чипы на зарядники для ноутбуков, чтобы от чего попало их не запитывали.

Ответ написан более двух лет назад

1 комментарий

Как получить короткую ссылку на русскую страницу в Википедии?

smallreg @smallreg

Есть "родной" сокращатель ссылок: https://meta.wikimedia.org/wiki/Special:UrlShortener

Ответ написан более трёх лет назад

Комментировать

Как удалить идентифицирующую покупателя информацию из PDF?

Wan-Derer @Wan-Derer

Зобанели на Хабре, волки́ ;((

1. Перегнать документ в Word (вроде есть специальные программы или в самом Acrobat есть такая возможность) и та его обработать. Правда, многие документы перегоняются коряво.
2. Системы распознавания (OCR) умеют работать с PDF.
3. Заказать программистам конвертер PDF -> PDF с отсечением всего лишнего. Если в документе только текст без картинок - справится даже малоопытный.

Ответ написан более двух лет назад

Комментировать

Как удалить идентифицирующую покупателя информацию из PDF?

Adamos @Adamos

Видимое - редактором. Inkscape, например.
Невидимое, если оно не-графическое, теоретически должен отсеять виртуальный принтер в PDF.
Если, конечно, он не поленится и не отправит на печать исходник, не жуя.
Но вообще-то в PDF могут быть зашиты не только личные данные, но и скрипты, например. Да и некоторые механизмы защиты там вроде бы предусмотрены... признаться, копаться нужды не было, точнее сказать не могу.

Ответ написан более двух лет назад

Комментировать

Что это за датчик движения?

Сергей П @trapwalker

Программист, энтузиаст

Вот такой вот можно использовать. Тоже светодиод и фотодиод инфракрасные. Светит модулировнным сигналом, и, как только "видит" свой сигнал (отраженный от чего-то вроде руки) своим фотодиодом, реагирует.

Ответ написан более двух лет назад

Комментировать

Войдите на сайт