@ironalibay

Как вычленить характеристики продукта из текста описания?

Привет!

Мы, по партнерской программе для интренет-магазинов, получаем продукты через API. Продукты самые разные, от детских колясок до телефонов. У продуктов как правило разные продавцы и каждый заполняет информацию о продуктах по своему. Чаще всего нам попадается что-то вроде такого:
"PackageDimensions: Height: 60, Length: 63, Weight: 35, Width: 20",
или
"Экран 15.6" (1366x768) HD LED, глянцевый / AMD Quad-Core A4-5000M (1.5 ГГц) / RAM 4 ГБ / HDD 500 ГБ".

Существуют ли способы/методики/алгоритмы для приведение этих plain/text данных в какое-нибудь key-value представление?
  • Вопрос задан
  • 2426 просмотров
Решения вопроса 2
@xandox
Вряд ли есть готовые алгоритмы (ну точнее есть уже которые работают, но вряд ли ты найдешь открытые).
Но так или иначе надо использовать машинное обучение :)
Я бы предложил примерно такой способ
Сначала находишь разделитель ( , или / другие наверное есть ) делишь строку и для каждого подстроки определяешь про что она и какие характеристики. Задача сама по себе не тривиальная - но очень интересная :)
Ответ написан
Комментировать
Height: 60, Length: 63, Weight: 35, Width: 20
Такое еще можно регулярками вытащить из описания, да и вообще любое что имеет 100% имя ключа и известны пределы value.. А вот произвольный текст навряд ли
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы