Задать вопрос

Zailox @Zailox

python

ИИ повторяет одно и то же несколько раз, как пофиксить?

Зафайнтюнил модельку (distilgpt2), натренировал 220+ эпох (100000 шагов), всё должно быть идеально, но ИИ в ответе повторяется несколько раз.
Вот запуск модели:

def generate(msg):
    question = "Question: "+msg
    inputs = tokenizer(question, return_tensors="pt").to("cuda:0")
    attention_mask = inputs["attention_mask"]
    outputs = model.generate(
        inputs["input_ids"],
        attention_mask=attention_mask,
        max_length=256,
        num_return_sequences=1,
        do_sample=True,  # Enable sampling for varied output
        top_k=50,        # Limit to top 50 probable tokens
        top_p=0.95,      # Use nucleus sampling
        pad_token_id=tokenizer.eos_token_id  # Explicitly set padding token
    )

    # Decode and print the raw output for debugging
    raw_output = tokenizer.decode(outputs[0], skip_special_tokens=True)
    ##decoded_output = bytes(raw_output, "latin-1'").decode("unicode_escape")
    #print("Raw output:", repr(raw_output))   # Show exact string with quotes
    #print("Visible output:", raw_output)     # Show what’s printed
    return decode_escapes(raw_output.replace(question, "").split('Answer: ')[-1])

А вот пример:
Запрос:

напиши код на C++, выводящий на экран надпись "тест"

Ответ:

Вот код на C++, выводящий на экран "тест":
```#include <iostream>
int main() {
   std::cout << "тест":
```#include <iostream>
int main() {
     std::cout << "тест":
```#include <iostream>
    экран    return 0;
}```

А вот и одна из строчек датасета (использовались случайные символы и кучу подобных примеров, чтобы модель понимала, что менять в зависимости от запроса):

"Напиши код на C++, выводящий на экран ""OwKф71У4hХLЮh""","Вот код на C++, выводящий на экран ""OwKф71У4hХLЮh"":\n```#include <iostream>\nint main() {\n    std::cout << ""OwKф71У4hХLЮh"" << std::endl;\n    return 0;\n}```"

Что можно сделать? На Реддите нашёл причину - скорее всего <EOS> токены

Вопрос задан 14 мар.
539 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

Zailox @Zailox Автор вопроса

Пофиксил

Заменил distilgpt2 на t5-small, там параметров меньше и кириллица есть.
Минусы - пытаюсь пофиксить замену спец символов на <unk>

Ответ написан 15 мар.

Комментировать

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 147 просмотров
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 213 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 146 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 112 просмотров
1

ответ
Искусственный интеллект

Простой
Как скормить весь проект нейросети (grok, chatgpt, deepseek) чтобы она понимала в нём и чтоб можно было просить ее доработать что -то?
- 1 подписчик
- 02 нояб.
- 351 просмотр
4

ответа
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 250 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 135 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 139 просмотров
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 141 просмотр
0

ответов
Google

+1 ещё

Простой
Бесплатная альтернатива Gemini 2.0 Flash preview image generation?
- 3 подписчика
- 28 окт.
- 178 просмотров
2

ответа
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽