Собираю датасет для обучения модели по классификации текста (наименования товаров/работ/услуг → код ОКПД2).
Нужны пары в формате:
- Код: 74.90.20.149
- Наименование: Оказание услуг по технической защите конфиденциальной информации
Особенно нужны реальные наименования из контрактов, каталогов, спецификаций, а не просто справочники кодов.
Уже пробовал:
- Парсить ЕИС (zakupki.gov.ru) — много дублей
- ГИСП — мало разнообразия
- API clearspending.ru — лимиты
Может, у кого-то есть:
- Дампы/архивы с госзакупок (выгрузки, торренты)
- Свои собранные датасеты (готовые, на GitHub/Kaggle)
- Опыт парсинга B2B-площадок (типа Фабрикант, Пульс цен) или API торговых площадок
- Выгрузки из 1С с привязкой к ОКПД2
Ищу любые рабочие источники или советы. Поделитесь, если сталкивались!
Заранее спасибо.