Accuracy - 0.710921447763553. Текст векторизировал через TF-IDF и подавал в логистическую регрессию.
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
Глазами тоже пробежался, в принципе, много правильных предсказаний.
Да, верно. Описания разноформатные, где то больше параметров, где то меньше.
Ниже пример. Датасет примерно из 30 тысяч строк.
ТРУБА СТАЛЬНАЯ БЕСШОВНАЯ 168Х12 СТ20А К48 НЕФТЕГАЗОПРОВОДНАЯ ПОВЫШЕННО Й ЭКСПЛУАТАЦИОННОЙ НАДЕЖНОСТИ ТУ 1317-006.1-593377520-2003 В ЗАВОДСКОЙ ИЗОЛЯЦИИ 2У ТУ 1390-004-32256008-03 2Н ТУ14-3Р-49-2003 2У Т У1390-011-01284695-07
Труба бесшовная горячедеформированная из коррозионностойкой стали 325х16 ст.08Х18Н10Т ГОСТ 9940-81. Испытать на МКК.
Труба электросварная 530х8-К52-13ХФА ТУ 1383-010-48124013-2003, с двухслойной изоляцией весьма усиленного типа 3-3Н ТУ 14-3Р-37-2000
Труба б/ш 42,2х4,9 из стали ASTM A335 Р5 по ASME B 36.10 аналог трубы стальной бесшовной для нефтеперерабатывающей и нефтехимической промышленности Б- Ст.15Х5М ГОСТ 550-75
Труба бесшовная горячедеформированная из коррозионно-стойкой стали 219х9-12Х18Н10Т ГОСТ 9940-81
ТРУБА СТАЛЬНАЯ БЕСШОВНАЯ 159Х8 СТ13ХФА К48 НЕФТЕГАЗОПРОВОДНАЯ ПОВЫШЕНН ОЙ ЭКСПЛУАТАЦИОННОЙ НАДЕЖНОСТИ ТУ 1317-006.1-593377520-2003 В ЗАВОДСКО Й ИЗОЛЯЦИИ 2У ТУ1390-004-32256008-03 2Н ТУ14-3Р-49-2003 2У Т У 1390-011-01284695-04
Труба бесшовная горячедеформированная из коррозионно-стойкой стали 273х8-12Х18Н10Т ГОСТ 9940-81
Труба бесшовная 114х8-20С ТУ 14-161-148- 94, с наружным трехслойным защитным покрытием на основе экструдированного полиэтилена 3У ТУ 1390-004-32256008-2003
Accuracy - 0.710921447763553. Текст векторизировал через TF-IDF и подавал в логистическую регрессию.
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
Глазами тоже пробежался, в принципе, много правильных предсказаний.
Да, верно. Описания разноформатные, где то больше параметров, где то меньше.
Ниже пример. Датасет примерно из 30 тысяч строк.
Не работал c gpt, попробую второй вариант - обучить на pretrain.
https://huggingface.co/yandex/YandexGPT-5-Lite-8B-...
Были мысли еще через NER-модель извлекать параметры из наименования, но пока в поисках решения.