Как вычленить характеристики продукта из текста описания?
Привет!
Мы, по партнерской программе для интренет-магазинов, получаем продукты через API. Продукты самые разные, от детских колясок до телефонов. У продуктов как правило разные продавцы и каждый заполняет информацию о продуктах по своему. Чаще всего нам попадается что-то вроде такого:
"PackageDimensions: Height: 60, Length: 63, Weight: 35, Width: 20",
или
"Экран 15.6" (1366x768) HD LED, глянцевый / AMD Quad-Core A4-5000M (1.5 ГГц) / RAM 4 ГБ / HDD 500 ГБ".
Существуют ли способы/методики/алгоритмы для приведение этих plain/text данных в какое-нибудь key-value представление?
Вряд ли есть готовые алгоритмы (ну точнее есть уже которые работают, но вряд ли ты найдешь открытые).
Но так или иначе надо использовать машинное обучение :)
Я бы предложил примерно такой способ
Сначала находишь разделитель ( , или / другие наверное есть ) делишь строку и для каждого подстроки определяешь про что она и какие характеристики. Задача сама по себе не тривиальная - но очень интересная :)
Height: 60, Length: 63, Weight: 35, Width: 20
Такое еще можно регулярками вытащить из описания, да и вообще любое что имеет 100% имя ключа и известны пределы value.. А вот произвольный текст навряд ли