Задать вопрос
@tytenok

Может, у кого-то есть дампы с реальными наименованиями товаров/услуг и кодами ОКПД2 для обучения NLP-модели?

Собираю датасет для обучения модели по классификации текста (наименования товаров/работ/услуг → код ОКПД2).
Нужны пары в формате:
  1. Код: 74.90.20.149
  2. Наименование: Оказание услуг по технической защите конфиденциальной информации

Особенно нужны реальные наименования из контрактов, каталогов, спецификаций, а не просто справочники кодов.
Уже пробовал:
  1. Парсить ЕИС (zakupki.gov.ru) — много дублей
  2. ГИСП — мало разнообразия
  3. API clearspending.ru — лимиты

Может, у кого-то есть:
  1. Дампы/архивы с госзакупок (выгрузки, торренты)

  2. Свои собранные датасеты (готовые, на GitHub/Kaggle)

  3. Опыт парсинга B2B-площадок (типа Фабрикант, Пульс цен) или API торговых площадок

  4. Выгрузки из 1С с привязкой к ОКПД2

Ищу любые рабочие источники или советы. Поделитесь, если сталкивались!
Заранее спасибо.
  • Вопрос задан
  • 25 просмотров
Подписаться 1 Средний Комментировать
Помогут разобраться в теме Все курсы
  • Нетология
    Инженерия машинного обучения
    2 года
    Далее
  • Skillbox
    Профессия Machine Learning Engineer
    12 месяцев
    Далее
  • Skypro
    Нейросети с 0
    9 месяцев
    Далее
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы