Как работает языковые модели и нейроны?

Question

Tokishu @Tokishu

А как?

Как работает языковые модели и нейроны?

Я далекий человек от темы с ИИ, также и в математике.
Но всегда хотелось написать свою языковую модель но проблема в том что ответов в интернете очень мало, особенно про языковые модели. По этому вот ряд вопросов:

1. Как реализуема память у языковых моделей и как ее реализовать?
2. Как «вбить» языковой модели «личность»? А именно ее имя и стиль речи. А также правила.
3. Как преобразовать текст чтобы входящие нейроны поняли запрос?
4. Как дать ИИ возможность к действию? К примеру воспользоваться API.
5. Нужно ли быть гением математических наук чтобы написать такую модель?
6. Каким образом нейроны выводят нормальный ответ?
7. Как совместить 2 в 1? А точнее языковую модель и ии для распознания изображений.
8. Какие именно правила обработки информации для обучения есть? (К примеру что нужно отсекать).

Вопросов много а ответов мало, когда ответы есть возникает еще больше вопросов :(
Пожалуйста посоветуйте статьи (чем понятнее тем лучше), книги, и список математических формул которые нужно выучить для понимания всего этого. Чем больше тем лучше, заранее всем спасибо!

Вопрос задан более года назад
118 просмотров

5 комментариев

Подписаться 1 Средний 5 комментариев

tukreb @tukreb

Я далекий человек от темы с ИИ, также и в математике.

Без математики у вас нет шансов.

Ваши все вопросы, это начальный курс любой книги по ИИ и алгоритмам. Идите читайте книжки.

Написано более года назад
Александр Алексеев @ntllct

Начинать изучать такие вещи нужно с кода. Я бы рекомендовал поискать llama3-from-scratch, picogpt, nanogpt, minigpt. На словах такие вещи не объяснить.
Что касается второго вопроса, то в, например, text-generation-webui есть генератор персонажей. Достаточно словами в системном промпте попросить модель отвечать как какой-то персонаж. Можно даже описать биографию этого персонажа. Есть и другие способы с применением PEFT.

Написано более года назад
Сергей delphinpro @delphinpro

Начните с перцептрона. И далее по нарастающей.

Написано более года назад
rPman @rPman

Сергей delphinpro, между перцептроном и аудио моделями способными работать по инструкциями на естественном языке лет 60 развития

Написано более года назад
Сергей delphinpro @delphinpro

rPman, я понимаю. но, во-первых, ему не придется тратить эти 60 лет для изучения того, что уже известно человечеству, а во-вторых, автор спрашивает, как работает нейрон. Вероятно, понимания ноль, и нужно начинать с нуля.

Написано более года назад

Помогут разобраться в теме Все курсы

Нетология

Машинное обучение

10 месяцев

Далее
Skillbox

Профессия Machine Learning Engineer

12 месяцев

Далее
Яндекс Практикум

Инженер машинного обучения

4 месяца

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Искусственный интеллект

Простой
Как сделать синхронный перевод с английского на русский, локально?
- 3 подписчика
- 06 дек.
- 223 просмотра
1

ответ
Искусственный интеллект

Простой
Сравнение стилей двух разных текстов: один или разные люди их писали или вообще ИИ?
- 2 подписчика
- 05 дек.
- 167 просмотров
1

ответ
Программное обеспечение и интернет-сервисы

+1 ещё

Простой
Какую нейронку с API (чтоб оплата принималась в рублях) выбрать?
- 3 подписчика
- 22 нояб.
- 402 просмотра
3

ответа
Искусственный интеллект

Простой
Как скормить весь проект нейросети (grok, chatgpt, deepseek) чтобы она понимала в нём и чтоб можно было просить ее доработать что -то?
- 1 подписчик
- 02 нояб.
- 494 просмотра
4

ответа
Google

+1 ещё

Простой
Бесплатная альтернатива Gemini 2.0 Flash preview image generation?
- 3 подписчика
- 28 окт.
- 249 просмотров
2

ответа
Железо

+3 ещё

Простой
Какие есть готовые умные очки, которые можно прошить?
- 2 подписчика
- 15 окт.
- 360 просмотров
1

ответ
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 3 подписчика
- 14 окт.
- 773 просмотра
4

ответа
Видеокарты

+1 ещё

Простой
Выбрать ли RTX 3060 12 Гб или RTX 5060 8 Гб для бюджетного AI?
- 2 подписчика
- 01 окт.
- 738 просмотров
4

ответа
Искусственный интеллект

Сложный
Stable Diffusion генерит, а по итогу картинки нет, не показывает?
- 1 подписчик
- 29 сент.
- 108 просмотров
0

ответов
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 165 просмотров
0

ответов
Показать ещё Загружается…

Web Designer

Peppermint

от 1 500 до 1 900 $

Старший инженер

Гринатом • Петрозаводск

До 80 000 ₽

Project менеджер / Менеджер проекта

W3Promo • Москва

от 60 000 до 100 000 ₽

Я далекий человек от темы с ИИ, также и в математике.

Без математики у вас нет шансов.

Ваши все вопросы, это начальный курс любой книги по ИИ и алгоритмам. Идите читайте книжки.
Начинать изучать такие вещи нужно с кода. Я бы рекомендовал поискать llama3-from-scratch, picogpt, nanogpt, minigpt. На словах такие вещи не объяснить.
Что касается второго вопроса, то в, например, text-generation-webui есть генератор персонажей. Достаточно словами в системном промпте попросить модель отвечать как какой-то персонаж. Можно даже описать биографию этого персонажа. Есть и другие способы с применением PEFT.
Начните с перцептрона. И далее по нарастающей.
Сергей delphinpro, между перцептроном и аудио моделями способными работать по инструкциями на естественном языке лет 60 развития
rPman, я понимаю. но, во-первых, ему не придется тратить эти 60 лет для изучения того, что уже известно человечеству, а во-вторых, автор спрашивает, как работает нейрон. Вероятно, понимания ноль, и нужно начинать с нуля.

Answer 1 · 2024-05-26 22:14:35

Так как никто не ответил, коротко:

1. Как реализуема память у языковых моделей и как ее реализовать?

над реализацией памяти языковых моделей бьются ученые, 'бьются пожарные, бьется милиция,..' пока безуспешно, лучшее что придумали с практической точки зрения, используя instruct модели, добавляют в беседу (контекст) нужные факты в каком-либо виде каким либо способом (это основа методологии RAG, гугли). Потребует обучение дополнительной модели на создание индекса, создание не простой модели базы данных (например делают древовидную базу отношений знаний)... в общем все что позволит каким то способом выбирать из всей базы данных только те знания что нужны, и уже тут проблема, как разделить имеющиеся знания на куски.
Если говорить про языковую модель и только про нее, знания она получает исключительно из обучающих данных, и этого недостаточно, что бы модель могла эти данные эффективно использовать, тюнат с помощью reinforced learning human feedback, собирая высококачественные датасеты вопросов и оценки качества ответов модели (хорошо плохо), с каждым шагом повышения качество модели, люди, размечающие данные, должны быть все более разносторонними специалистами... и речь идет не о той крохе, которую ты хочешь добавить в датасет, а о повторном тюнинге по всем знаниям из обучающих данных. В общем это очень дорогой процесс, сравнимый с созданием языковой модели (речь о десятках миллиолнов баксов)

2. Как «вбить» языковой модели «личность»? А именно ее имя и стиль речи. А также правила.

Личность языковой модели настраивают стартовым (системным) промптом и finetuning, это дообучение модели на своих данных (не сильно большом количестве), ты можешь попросить как быть гениальным физиком математиком так смешным тупицей с дефектами речи, это сработает если знание об этом уже было в обучающих данных. Это не добавление данных и знаний, а определение формата или стиля общения. Например можно скормить чат как датасет и попросить сетку продолжить общение, она будет имитировать участников.

3. Как преобразовать текст чтобы входящие нейроны поняли запрос?

ключевые слова - используют токенизер, алгоритм, который на основании базы текстов, настраивает словам или их частям (токенам) вектор чисел, определяющих буквально их смысло, расстояние (там могут использовать не только евклидовое как метрику) между похожими по смыслу словами будет быть ближе чем между далекими.
Собственно все контекстное окно токенов преобразуется в рядом стоящие вектора по каждому токену, и это и есть входы нейронной сети... То же самое происходит с аудио и как я понимаю видео, оно токенизируется неким алгоритмом (качество которого очень важно, алгоритмы есть, гугли), превращаясь в вектора, описывающие смысловую единицу, и уже их набор идет как вход. И да, выход gpt это один символ - точнее таблица вероятностей, какой выбрать токен следующим (количество выходов - количество токенов)

4. Как дать ИИ возможность к действию? К примеру воспользоваться API.

Модели, тюненные как instruct, могут воспринимать инструкции на естественном языке, с примерами api, описанием их работы и прочее... чем лучше модель тем лучше будет результат, с gpt4 например это работает просто отлично, собственно многие сети обучают сначала на программиста (использую github как датасет) и сети уже понимаю формальные языки программирования, форматы данных, то же json/csv и т.п. и могут использовать их в запросах и ответах, если попросишь

5. Нужно ли быть гением математических наук чтобы написать такую модель?

Нужно быть гением в разработке ИИ чтобы разрабатывать ИИ. Не зря топовые компании мира как пылесосом прошлись по рынку и собрали букально всех до кого могли дотянуться. Если ты не крутился какое то время в нейронных сетях, то пока не наверстаешь упущенное, соваться в самый пик и мейнстрим технологий будет сложно. Одной математики тут точно недостаточно. Да и формально, это нужно тем кто пишет низкоуровневые методы, типа разработка той же библиотеки transformer (которую пилит гугл), а вот пользователям этого нужно просто понимать базовые основы математики и тервера, не нужно прям очень туда углубляться, в матанализе например можно бесконечно плавать и ни капли не коснуться чего то связанного с нейронками.

6. Каким образом нейроны выводят нормальный ответ?

Никто не знает. Но,если экстраполировать, используя как пример алгоритмы распознавания и классификации изображений, то построенная нейронная сеть, состоящая из нескольких слоев, на первых слоях буквально в весах содержит куски изображений в виде примитивов - градиенты, линии, кривые,.. на втором слое более сложно - фигуры, на третьем появляются более высокие понятия типа шерстинки, усы, носы, и т.п. и так каждый следующий слой нейронной сети содержит все более усложняющуюся модель данных, но чем глубже заглядываешь тем сложнее понять что есть что. Собственно в новостях мелькают различные исследования в этом направлении, то там поняли что вот этот нейрон конкретной сетки если его подергать, вот то то происходит, и 100500 страниц описания как этот нейрон обнаружить, то тут типа нашли способ заставить сетку забыть данные исключительно файнтюном и особым подбором обучающих данных и т.п. в общем народ работает, но что то мне говорит чтобы эти знания получать нужно иметь на руках приличные вычислительные мощности (именно они делают нейронки дорогими) а с мелкими сетками каши не сваришь, они не способны на что то вразумительное

7. Как совместить 2 в 1? А точнее языковую модель и ии для распознания изображений.

создать токенизер сразу на мультимодальные данные, собрать качественный датасет, содержащий и то и другое, собрать мощностей побольше (на пару порядков наверное чем для просто текстового ИИ) и т.п. гугли, открытые мультимодальные сетки есть и от фейсбук, и от китайцев (qwen) ну может openai какие публикации выдала...

8. Какие именно правила обработки информации для обучения есть? (К примеру что нужно отсекать).

ХБЗ. Главное что дало принципиальную возможность обучить современный ИИ на базе gpt - это когда перестали пытаться создать качественный и вылизанный датасет знаний, а скормили нейронке как можно больше мусора, т.е. вместо качества, взяли количеством (на пару порядков больше чем это имело бы смысл), добавив так же абсурдно много слоев и весов, затратив абсурдно больше вычислительных ресурсов, внезапно получили результат.

Да, ИИ создали случайно, первоначально transformer загадывался как переводчик с языка на другой язык, а потом стали щупать, а он как орешки стал щелкать задачи обработки текста, классификации и т.п. а затем обнаружили что генерация бреда оказалась не такой уж и бредовой, в попытке найти закономерности в тоннах мусора, нейронная сеть сумела построить внутри себя модель интеллекта и знаний, криво, косо, глючно (через невероятно странный механизм, где добавление вероятностного механизма, т.е. буквально вместо нужной следующей буквы добавляют вероятность выбрать не самую лучшую, но это почему то улучшает итоговое качество а не ухудшает) у исследователей получилось эти знания от туда вытаскивать.

Как работает языковые модели и нейроны?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт