Как создать мультипризнаковую мноклассовую модель классификации текстов?
Добрый день.
Вопрос в области NLP (обработка текста).
Подскажите, пожалуйста, как создать модель многоклассовой классификации для предсказания не одного признака, а сразу нескольких признаков (например, 20-30 признаков).
Задача следующая:
У меня есть текстовый датасет с наименованиями материалов строительных материалов. Есть разметка (дополнительные столбцы) с характеристиками материалов.
Например:
Есть наименование:
Наименование - Труба стальная бесшовная холоднодеформированная 34х6 Ст.20 ГОСТ 8734-75
Разметка с характеристиками:
Вид - Труба
Диаметр - 34
Толщина стенки - 6
Марка стали - Ст.20
И требуется сразу в рамках одной модели предсказать Вид, Диаметр, Толщина стенки, Марка стали.
Я решил эту задачу с помощью логистической регрессии, но на 1 признаке (на признаки Диаметр). Но хотелось бы сразу решить эту задачу сразу на нескольких признаках.
И еще вопрос:
Может лучше решить эту задачу на модели нейросетей? И какую лучше нейросеть использовать для решения данной задачи?
Что то я сомневаюсь, что вы смогли свою задачу решить такими простыми алгоритмами, вы проводили проверку, какой был процент верных ответов?
Я верно понимаю, что у вас огромный объем описаний, которые не формализованы? потому что иначе задача решается серией парсеров на основе регулярых выражений.
Боюсь вам нужна gpt, она буквально может на вход получить ваш текст а на выход к примеру json с нужными полями.
если готовы сами обучать (у вас большой обучающий датасет тысячи - десятки тысяч примеров) то берете какой-нибудь pretrain (хоть того же yandex или facebook llama или гугл gemma или qwen) небольшого размера (думаю хватит 1..8 b их можно дешево до тюнить) и набор утилит peft (погугли, есть готовые статьи с примером в т.ч. на хабре)
если не готовы, берете модель по умнее (скорее всего уже не локально), и составляете качественный помпт, в котором есть максимально качественные примеры (будет работать с десятками или даже единицами)
p.s. я бы вместо отправки мощной модели самого текста, заставил бы ее создать приложение (как я бы его создавал, вся проблема не в нем а серии описаний разных типовых и не очень форматов данных, ведь не все же они отличаются друг от друга, наверняка можно выделить группы похожих) причем такое, что если встречается новый формат, снова топать к ИИ и обновлять приложение, добавляя новый или подправляя уже имеющися