Задать вопрос
  • Как создать мультипризнаковую мноклассовую модель классификации текстов?

    @filatovfl72 Автор вопроса
    Здравствуйте спасибо за ответ.

    Accuracy - 0.710921447763553. Текст векторизировал через TF-IDF и подавал в логистическую регрессию.
    from sklearn.feature_extraction.text import TfidfVectorizer
    from sklearn.linear_model import LogisticRegression

    Глазами тоже пробежался, в принципе, много правильных предсказаний.

    Да, верно. Описания разноформатные, где то больше параметров, где то меньше.
    Ниже пример. Датасет примерно из 30 тысяч строк.
    1. ТРУБА СТАЛЬНАЯ БЕСШОВНАЯ 168Х12 СТ20А К48 НЕФТЕГАЗОПРОВОДНАЯ ПОВЫШЕННО Й ЭКСПЛУАТАЦИОННОЙ НАДЕЖНОСТИ ТУ 1317-006.1-593377520-2003 В ЗАВОДСКОЙ ИЗОЛЯЦИИ 2У ТУ 1390-004-32256008-03 2Н ТУ14-3Р-49-2003 2У Т У1390-011-01284695-07
    2. Труба бесшовная горячедеформированная из коррозионностойкой стали 325х16 ст.08Х18Н10Т ГОСТ 9940-81. Испытать на МКК.
    3. Труба электросварная 530х8-К52-13ХФА ТУ 1383-010-48124013-2003, с двухслойной изоляцией весьма усиленного типа 3-3Н ТУ 14-3Р-37-2000
    4. Труба б/ш 42,2х4,9 из стали ASTM A335 Р5 по ASME B 36.10 аналог трубы стальной бесшовной для нефтеперерабатывающей и нефтехимической промышленности Б- Ст.15Х5М ГОСТ 550-75
    5. Труба бесшовная горячедеформированная из коррозионно-стойкой стали 219х9-12Х18Н10Т ГОСТ 9940-81
    6. ТРУБА СТАЛЬНАЯ БЕСШОВНАЯ 159Х8 СТ13ХФА К48 НЕФТЕГАЗОПРОВОДНАЯ ПОВЫШЕНН ОЙ ЭКСПЛУАТАЦИОННОЙ НАДЕЖНОСТИ ТУ 1317-006.1-593377520-2003 В ЗАВОДСКО Й ИЗОЛЯЦИИ 2У ТУ1390-004-32256008-03 2Н ТУ14-3Р-49-2003 2У Т У 1390-011-01284695-04
    7. Труба бесшовная горячедеформированная из коррозионно-стойкой стали 273х8-12Х18Н10Т ГОСТ 9940-81
    8. Труба бесшовная 114х8-20С ТУ 14-161-148- 94, с наружным трехслойным защитным покрытием на основе экструдированного полиэтилена 3У ТУ 1390-004-32256008-2003


    Не работал c gpt, попробую второй вариант - обучить на pretrain.
    https://huggingface.co/yandex/YandexGPT-5-Lite-8B-...

    Были мысли еще через NER-модель извлекать параметры из наименования, но пока в поисках решения.
    Написано