Задать вопрос

PyWebSol @PyWebSol

python

После конвертации OpenChat из safetensors в gguf, модель забывает данные, на которых я ее дообучил. Что делать?

Дообучил нейросеть OpenChat на своем наборе данных. Перед конвертацией модель прекрасно отвечала на вопросы так, как я обучил ее. После того, как я сконвертировал её в .gguf файл, она забыла эти данные и начала отвечать так, как отвечала до обучения.

В качестве примера я взял вопрос "Кто такой PyWebSol?".
Ответ до конвертации:

PyWebSol - это программист, который создал такие проекты, как:
1) PyWeb-RuGPT: ...
2) ...

Ответ после конвертации в gguf формат:

PyWebSol - это компания, специализирующаяся на разработке веб-приложений и предоставлении услуг по созданию интернет-магазинов, сайтов для недвижимости и других проектов. Они используют Python и Django в качестве основных технологий для разработки веб-приложений.

Ответ неверный.

Скрипт, который я использовал для конвертации:

import os
from peft import AutoPeftModelForCausalLM
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

input_file = input("Введите путь к папке с adapter моделью: ") # /mnt/aiSSD/openchat/0.1
out_file = input("Введите путь к файлу новой модели: ") # /mnt/aiSSD/openchat/openchat-01.gguf

temp_dir = "temp"

model = AutoPeftModelForCausalLM.from_pretrained(
    input_file,
    torch_dtype=torch.bfloat16,
)

tokenizer = AutoTokenizer.from_pretrained(input_file)

model.base_model.save_pretrained(temp_dir)
tokenizer.save_pretrained(temp_dir)

del model
del tokenizer

os.system(f"python3 llama.cpp/convert.py {temp_dir} --outfile {out_file} --ctx 4096")

os.system(f"rm -rf {temp_dir}")

Он использует llama.cpp, peft и transformers.

Вопрос задан более года назад
872 просмотра

1 комментарий

Подписаться 2 Простой 1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+3 ещё

Простой
Как с помощью Kaspersky Security Center запустить скрипт?
- 1 подписчик
- 3 часа назад
- 37 просмотров
0

ответов
Python

+2 ещё

Простой
Как в группе Telegram ответить скриптом на сообщение пользователя, на которое я отвечал сообщением, которое как раз таки запустило скрипт (telethon)?
- 1 подписчик
- 17 часов назад
- 73 просмотра
1

ответ
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- вчера
- 79 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- вчера
- 138 просмотров
3

ответа
Python

Простой
Почему у меня программа вообще не реагирует на свойства в python?
- 1 подписчик
- вчера
- 162 просмотра
3

ответа
Python

Простой
Python клон проекта, как создать?
- 1 подписчик
- 01 авг.
- 155 просмотров
1

ответ
Python

+2 ещё

Простой
Как добавить опцию в контекстное меню для Internet Shortcuts?
- 1 подписчик
- 30 июл.
- 122 просмотра
1

ответ
Python

+2 ещё

Простой
Как в Pyrogram получить id отправленного сообщения?
- 1 подписчик
- 30 июл.
- 90 просмотров
1

ответ
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 35 просмотров
1

ответ
Python

+1 ещё

Простой
Как распарсить смешанный тип json-данных?
- 1 подписчик
- 26 июл.
- 249 просмотров
3

ответа
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python разработчик

ITK academy • Казань

от 75 000 ₽