Как происходит пошаговое обучение языковых моделей азам?

Question

Everything_is_not_so_bad @2ord

Искусственный интеллект

Как происходит пошаговое обучение языковых моделей азам?

Задался базовым вопросом:
как вообще языковым моделям вскармливают какую-то предметную область. Допустим, математику: что такое числа, какие мат. законы существуют, как их применять и т.д. То есть, вообще минимально и для данной области.

Буду рад ссылки на тему обучения азам с нуля. Ну и, самое любопытное - это как можно втиснуть минимум информации в модель, чтобы она была не тупо словарем, а умела бы и соображать на неизвестные ей темы (имеющие хоть минимальное отношение), имея лишь некоторый минимум знаний, который был ей дан при обучении.

Вопрос задан 20 апр.
53 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Искусственный интеллект

Простой
Как можно реализовать помощника, который мог бы отвечать на вопросы исходя из моей базы знаний?
- 2 подписчика
- 28 апр.
- 99 просмотров
1

ответ
Искусственный интеллект

Простой
Говорящие аватары на ИИ озвучивающие текст русские аналоги synthesia.io?
- 1 подписчик
- 27 апр.
- 17 просмотров
0

ответов
Машинное обучение

+2 ещё

Средний
Как обучать transformers модели на нескольких gpu?
- 2 подписчика
- 27 апр.
- 169 просмотров
0

ответов
Python

+3 ещё

Средний
Как запустить обучение с deepspeed у себя на пк?
- 2 подписчика
- 26 апр.
- 275 просмотров
1

ответ
Искусственный интеллект

+1 ещё

Простой
Какая нейросеть лучше подойдёт для распознавания слов из mp3?
- 3 подписчика
- 25 апр.
- 606 просмотров
1

ответ
Google

+1 ещё

Простой
Какому ИИ сервису гугла можно скормить документ и потом задавать вопросы по нему?
- 2 подписчика
- 23 апр.
- 218 просмотров
2

ответа
Аудио

+2 ещё

Простой
Какой программой можно сделать из текста рэп?
- 1 подписчик
- 20 апр.
- 709 просмотров
2

ответа
Искусственный интеллект

+2 ещё

Средний
Можно ли и как создать ИИ в игре roblox?
- 1 подписчик
- 19 апр.
- 72 просмотра
1

ответ
Windows

+1 ещё

Простой
Как вернуть microsoft copilot?
- 1 подписчик
- 16 апр.
- 1541 просмотр
4

ответа
Показать ещё Загружается…

Инженер-разработчик радиоэлектронной аппаратуры

ГК «Турбулентность-ДОН» • Ростов-на-Дону

от 80 000 до 110 000 ₽

Инженер-проектировщик АСУТП

ГК «Турбулентность-ДОН» • Ростов-на-Дону

от 110 000 ₽

Senior frontend developer (vue.js) в Habr 🚀

Хабр • Москва

от 200 000 до 250 000 ₽

Разработать парсер сайта с текстовым содержанием на Python

03 мая 2024, в 18:19

10000 руб./за проект

Нужно перенести ru версию с субдомена на основной домен WPML модуль

03 мая 2024, в 18:06

8000 руб./за проект

Консультация по работе с TON space и wallet в Telegram

03 мая 2024, в 16:26

3000 руб./за проект

Answer 1 · 2024-04-20 19:52:27

а умела бы и соображать на неизвестные ей темы

Нет. Они такое не умеют, там нет "соображалки"

Answer 2 · 2024-04-21 19:17:44

Ответ в виде короткого гайда ты не получишь, он не влезет в формате qna, да и некому тебе его дать.. гугли, все есть в интернете.

Для начала, чтобы повторить свою языковую модель, которая начнет показывать признаки интеллекта (т.е. нейронка построит внутри модель человеческого интеллекта), нужно минимум десятки миллионов долларов (это оптимистичная оценка). Это при условии наличии специалистов (команда), данных (все бросились парсить интернет и те кто эти данные хостят внезапно осознали что их данные имеют цены) и мотивацию. И да ее качество, в лучшем случае будет на уровне gpt3.5 от openai...
Например у богатейшей в мире компании google, создавшей собственно алгоритм transformer, стоящий в основе современных llm-ок, имеющей огромные ресурсы, собранные данные со всего интернета, собственное железо (их TPU на порядок энергоэффективнее видеокарт, и развиваются уже десятилетие) - догнать по возможностям openai gpt4, не получилось!

Причина - gpt стала показывать такие признаки при значительном увеличении количества как параметров нейронной сети (миллиарды) так и обучающих данных (трилионы токенов). Чтобы это все обработать в разумные сроки (месяцы-годы), нужны суперкомпьютеры на основе nvidia видеокарт, от монополиста, удерживающего рынок так что цены на это дело 10х от возможных (или даже 100х), плюс санкции добавляют еще Nx к цене да и не найти адекватного оборудования.

НО! можно взять готовую нейронную сеть (ключевое слово pretrained или base или completion приписка у тех кто публикует такие сетки бесплатно) и использовать их токенизер (между прочем токенизация, тоже не простой процесс, поэтому лучше брать готовый) и finetuning на своих данных. С некоторым везением, результата можно будет добиться с 100-кратно меньшими денежными затратами (была статья где перец за 100$ дообучил llama7B до симуляции чата своих друзей). Помним, что если в обучающей выборке не было твоих знаний (не фактов а именно умений и пониманий) то дообучить этому будет сложнее и скорее всего итоговый результат - сеть начнет забывать что ранее знала и галлюцинировать еще сильнее. Тюнинг обычно используют чтобы повысить качество уже имеющихся умений и определить формат общения (например обучить модель общаться не в форме чата а в форме инструкций). Качество данных (соответствие обучающей выборке) - в этом случае имеет наиважнейшее значение.

Ну, и есть разные алгоритмы - ключевые слова для гуглинга - finetuning, peft, rhlf. Есть алгоритмы поверх llm-ок, не трогая их веса можно повысить возможности с помощью RAG...

Лучшие сетки с доступными весами на текущий момент, для обучения и работы с которыми хватит домашних видеокарт - llama3-8B (вышла 3 дня назад, всех шокирует, особенно 70B), openchat35-7B (на основе mistral)

Как происходит пошаговое обучение языковых моделей азам?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт