Почему модель llama предсказывает только один класс?

Question

Genkoder @Genkoder

Обработка естественного языка

Почему модель llama предсказывает только один класс?

Написал код для классификации текста без меток с помощью llama 2 , но проблема заключается в том что ответ модели только по одной категории к каждому тексту
Пример кода и ответа:

# Приведение текста к нижнему регистру
data['Выражения'] = data['Выражения'].str.lower()

# Очистка текста от лишних символов и пробелов
def clean_text(text):
    if isinstance(text, str):
        text = re.sub(r'<.*?>', '', text)  # Удаление HTML-тегов
        text = re.sub(r'[^а-яА-Яa-zA-Z0-9\s]', '', text)  # Удаление лишних символов
        text = re.sub(r'\s+', ' ', text).strip()  # Удаление лишних пробелов
        return text
    return ''

# Применяем очистку текста к DataFrame
data['Выражения'] = data['Выражения'].apply(clean_text)

# Инициализация модели LLaMA 2 и токенизатора

tokenizer = AutoTokenizer.from_pretrained(model_path)
model = LlamaForCausalLM.from_pretrained(model_path)

# Инициализация пайплайна генерации текста с использованием модели LLaMA 2
generator = pipeline("text-generation", model=model, tokenizer=tokenizer)

# Определяем возможные классы
#candidate_labels = ['позитивный', 'негативный', 'несодержательно', 'медицина', 'еда']

# Устанавливаем лимит токенов для модели и порог для второго класса
token_limit = 4000  # Максимальное количество токенов за раз


# Функция для генерации промпта
def generate_prompt(text):
    prompt = (
        f"Классифицируй следующий текст по категориям: 'позитивный', 'негативный', 'несодержательно', 'медицина','еда'. "
        f"Ответь только одной категорией без дополнительных слов: "
        f"'{text}'"
    )
    return prompt

# Функция классификации текста с учетом токенизации
def classify_with_tokenization(text):
    results = []
    start = 0
    end = token_limit

    while start < len(text):
        tokens = tokenizer(text[start:end], truncation=True, max_length=token_limit, return_tensors="pt")

        prompt = generate_prompt(tokenizer.decode(tokens.input_ids[0], skip_special_tokens=True))
        try:
            result = generator(prompt, max_new_tokens=2, num_return_sequences=1, do_sample=False) 
            classification = result[0]['generated_text'].strip()

            # Извлекаем только одну категорию
            match = re.search(r"(позитивный|негативный|несодержательно|медицина|еда)", classification)
            if match:
                results.append(match.group(0))
            else:
                results.append("Не удалось классифицировать")
        except Exception as e:
            results.append(f"Ошибка: {str(e)}")

        start += token_limit
        end += token_limit

    return ' '.join(results)

# Применение классификации
data['Предсказанные классы'] = data['Выражения'].apply(classify_with_tokenization)

# Вывод результата
print(data[['Выражения', 'Предсказанные классы']])

     Выражения Предсказанные классы
0   сегодня хороша погода поэтому надо пойти погулять           позитивный
1   сегодня плохая погода поэтому буду сегодня цел...           позитивный
2                    врач очень любезный и понимающий           позитивный
3             эти врачи ничего не понимают в медицине           позитивный
4                я очень людлю гулять в хорошу погоду           позитивный
5              в этом магазине очень мало ассоримента           позитивный
6                    этот ресторан очень плохо кормят           позитивный
7              это кафешка одна из лучших что я помню           позитивный
8                 завтра нужно посмотреть рассписание           позитивный

Вопрос задан 26 сент. 2024
144 просмотра

4 комментария

Подписаться 2 Средний 4 комментария

smilingcheater @smilingcheater

"ответ модели только по одной категории к каждому тексту"
Вас не смущает, что у вас с промте написано "Ответь только одной категорией без дополнительных слов"?

Написано 27 сент. 2024
Василий Банников @vabka

А что в result лежит?

Написано 27 сент. 2024
d'Ivan @2ord

Используй модель RuGPT2, обученную на русском.

Написано 28 сент. 2024
d'Ivan @2ord

людлю
а модель точно знает это слово?

Написано 28 сент. 2024

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Обработка естественного языка

Средний
Как создать мультипризнаковую мноклассовую модель классификации текстов?
- 3 подписчика
- 17 мая
- 1135 просмотров
0

ответов
Машинное обучение

+2 ещё

Средний
Какие виды эмбединга используется в nlp?
- 1 подписчик
- 10 мая
- 91 просмотр
1

ответ
Регулярные выражения

+2 ещё

Простой
Поиск оптимальной регулярки для бинарной классификации строк. Как?
- 1 подписчик
- 22 мар.
- 197 просмотров
1

ответ
Алгоритмы

+1 ещё

Средний
Какие есть Алгоритмы поиска синонимов?
- 3 подписчика
- 21 мар.
- 1675 просмотров
3

ответа
Машинное обучение

+1 ещё

Простой
Какой датасет лучше для обучения?
- 2 подписчика
- 17 янв.
- 177 просмотров
1

ответ
Искусственный интеллект

+2 ещё

Простой
Как исправить ошибку, возникающую при загрузке модели в rust_bert без файла vocab.txt?
- 1 подписчик
- 09 нояб. 2024
- 50 просмотров
1

ответ
Обработка естественного языка

+1 ещё

Простой
Как провести многоэтапную проверку текста через LLama3?
- 1 подписчик
- более года назад
- 60 просмотров
1

ответ
Машинный перевод с одного языка на другой

+1 ещё

Простой
Есть ли такая модель для word embedding?
- 3 подписчика
- более года назад
- 80 просмотров
0

ответов
Python

+1 ещё

Простой
Как сделать, чтобы мой дискорд бот мог общаться с пользователями?
- нет подписчиков
- более года назад
- 341 просмотр
1

ответ
Показать ещё Загружается…

Стажер в отдел IT-рекрутинга

Wanted • Санкт-Петербург

от 80 000 до 150 000 ₽

Intern It-recruiter

Wanted • Санкт-Петербург

До 120 000 ₽

Intern It-recruiter

Wanted • Москва

от 60 000 до 120 000 ₽

"ответ модели только по одной категории к каждому тексту"
Вас не смущает, что у вас с промте написано "Ответь только одной категорией без дополнительных слов"?
Используй модель RuGPT2, обученную на русском.
людлю
а модель точно знает это слово?

Answer 1 · 2024-09-27 06:11:58

вставь вывод отладочной информации или в отладчике посмотри, значение result[0] в методе classify_with_tokenization

p.s. если речь идет о классификации с помощью llm instruction, это отвратительный способ, его качество будет очень низким (за исключением топовых моделей)... попробуй в системный промпт добавить примеры, чем больше тем лучше, в идеале, чтобы каждый пример использовал максимально отличный от других вариант (в твоем случае это примеры похвалы, эмоций, отношения к человеку, к товару, и т.п.)

Правильно - обучить свою модель, на базе предобученной (не думаю что тебе потребуется большая модель, даже гугловская gemma 2g подойдет), но обучающая выборка должна содержать сотни и тысячи примеров.

Почему модель llama предсказывает только один класс?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт