Fine-tuning опенсорсного LLM новому языку?

Question

nkiay @nkiay

Нейронные сети

Fine-tuning опенсорсного LLM новому языку?

Я новичок в этой области. Каковы наиболее подходящие LLM и фреймворки с открытым исходным кодом для этой задачи? Я намерен использовать эту модель в довольно узкой области, возможно, в качестве ментора по физике в школе. Сколько времени может потребоваться (с 3070 Ti 11Gb) для достижения приемлемой для этой цели точности? Я предполагаю, что процесс тонкой настройки нового языка такой же, как и тонкой настройки любых других данных, или же это не так?
Я не смог найти open source LLM, поддерживающего нужный мне язык, или хотя бы частично обученного на нем. Хотя были LLM, которые поддерживают языки из группы нужного мне языка, что это может затруднить распознавание языков моделью.

Вопрос задан более двух лет назад
213 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 1

7 комментариев

nkiay @nkiay Автор вопроса

Я указал "абсолютно конкретную" задачу и спрашиваю, какой "абсолютно конкретный" инструмент мне использовать. Я уже перерыл GitHub, Hugging Face и другие платформы, но там нет нужного мне тюркского языка. Я спрашиваю относительное время, потому что хочу понять, стоит ли вообще тратить время на fine-tuning новому или это будет не по карману одному человеку.

Написано более двух лет назад
Максим Припадчев @Maksim_64

nkiay,
Fine-tuning опенсорсного LLM новому языку?
Это не конкретная задача для машинного обучения. Машинное обучение мыслит категориями, supervised, unsupervised, количество параметров, общее количество данных, форма данных, размерности данных и т.д. И исходя из этого, можно в общем обсуждать время или что то еще. Тренировать языковые модели с нуля, не то что человеку не по карману, это только корпорации могут себе позволить. Тюнить готовые это другое дело, тут уже все возможно и для одного человека.

Написано более двух лет назад
nkiay @nkiay Автор вопроса

Максим Припадчев, Спасибо что разъяснили. Значит ввиду тюнинг готовых моделей новому языку это реализуемая задача для одного человека?

Написано более двух лет назад
Максим Припадчев @Maksim_64

nkiay, Смотри что такое fine tuning. Это настройка параметров модели (большой базовой модели), для улучшения перформанца модели в какой то определенной области. Например чат бот для чего то, написание статей в какой то области и т.д. Весь подобный тюнинг, доступен по деньгам обычным людям потому что ты настраиваешь определенном образом базовую open source модель, которую натренировали корпорации с бюджетом доступным только корпорациям.

Возможно тебе следует тюнить многоязыковую модель. Такие есть в том числе и open source. Как оно будет работать на тюрском, я элементарно не знаю это слишком специфический кейс.

Но если есть от чего тюнится (базовая модель). То по деньгам это доступно обычным людям.

Написано более двух лет назад
nkiay @nkiay Автор вопроса

Понял значит то что я пытаюсь сделать это скорее дообучение и без модели говорящей на нужном языке мне там делать нечего.

Написано более двух лет назад
Максим Припадчев @Maksim_64

nkiay, Почитай, во это https://research.aimultiple.com/llm-fine-tuning/ Толково написано. Английским ты должен владеть, раз за такие задачи берешься, многое станет понятно что можно, а что нет.

Написано более двух лет назад
nkiay @nkiay Автор вопроса

Спасибо, исчерпывающий ответ!

Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 32 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 50 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 52 просмотра
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 50 просмотров
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 191 просмотр
3

ответа
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 107 просмотров
1

ответ
Нейронные сети

Простой
Flowise, как подключить эмбендингс?
- 1 подписчик
- 05 июл.
- 58 просмотров
1

ответ
Нейронные сети

Простой
Flowise error 500?
- 1 подписчик
- 04 июл.
- 70 просмотров
0

ответов
Нейронные сети

Простой
Нейросеть на ПК для обработки книжной литературы с последующей выдачей ответов по запросам?
- 1 подписчик
- 28 мая
- 198 просмотров
4

ответа
Arduino

+1 ещё

Средний
Сможет ли нейросеть написать скетч для Arduino mini мультиплексор нескольких COM портов в один?
- 2 подписчика
- 26 мая
- 321 просмотр
1

ответ
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Эксперт по транспортной сети/Сетевой инженер

НТЦ ПРОТЕЙ • Санкт-Петербург

от 200 000 ₽

Сетевой инженер

МТС • Владивосток

от 100 000 ₽

Answer 1 · 2023-06-27 12:35:50

Приблизительно все ваши вопросы, не связаны с реальностью.

1. Машинное обучение это НЕ детерминистический процесс, то есть нельзя даже предположить что и сколько займет времени, пока не начал решать абсолютно конкретную задачу посредством абсолютно конкретного инструмента.

2. Все процессы настройки моделей отличаются для конкретных задач и совпадают только делом случая. Есть данные и есть конкретная задача и конкретное решение, а не некий общий кейс.

3. https://github.com/Hannibal046/Awesome-LLM чего из open source там нет?

Answer 2 · 2023-06-27 17:09:39

Опенсорс llm-ки из более менее нормальных это opt и bloomz, доступны на huggingface. По качеству они хуже llama, которая чуть чуть не дотягивает до chatgpt3.5. (по ссылкам информация как обучать, тюнить и использовать с примерами кода и датасеты)

Fine-tuning не добавляет знаний llm-кам, а.в лучшем случае позволяет качественно научить ее пользоваться уже имеющимся (читай про reinforcement learning human feedback, это кстати не одна модель а несколько вспомогательных).

Требования тут к железу относительно просты - объем видеопамяти суммарно должен вмещать всю модель плюс небольшой запас, без квантизации и 16битных float (сама модель часть весов может так хранить). Увеличивая объем видеопамяти можно значительно увеличить скорость обучения (так как это уменьшает объем передаваемых через cpu и pci-e данных), к сожалению я не нашел бенчмарков для конкретных цифр, а платить сотни баксов как то не охото, плюс бесконечно это не масштабируется (точнее скорее всего понадобится править код, т.е. нужны еще и редкие специалисты, которых как пылесосом за последние 10 лет высосали крупные компании и уже выращивают их самостоятельно, как это делает facebook)

Есть ещё peft, позволяет тюнинг весов запроса, не трогая модель. Оно умеет работать с 8бит квантизацией (а значит 3х-4х кратно ниже требования к ram видеокарт), сам не пробовал.

Можно дообучить модель новым знаниям, но если смотреть на обычные нейронки, это требует заметно больше усилий чем если бы эти знания изначально добавляли в обучающую выборку. И есть нехорошие последствия из-за "катастрофического забывания", которые можно ослабить, добавляя примеров из исходной выборки, охватывая максимум знаний.

Но если хочешь этим заниматься готовь тысячи видеокарт, иначе процесс затянется на годы. Стоимость сам прикинь.

Fine-tuning опенсорсного LLM новому языку?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт