Всем доброго времени суток.
По работе возникла необходимость хотя бы поверхностно ознакомиться с принципами работы агрегаторов цен (прайс-агрегаторы) по типу aport.ru, price.ru, яндекс.маркет.
Вопрос прост: с чего начать?
Искал в сети что-то, что помогло бы найти стартовую точку, но по видимому либо знаний не хватает, либо искать не умею.
Чтобы более конкретно осветить проблему: на указанных сайтах агрегаторов имеется своя структура категорий товаров и свои фильтры. Каждый из агрегаторов предоставляет возможность загрузить файл со своим прайсом к себе. Как потом прайс-агрегатор парсит файл так, чтобы определить к какой своей категории указать товарную позицию магазина? Какие технологии или методы используются?
(Еще больше сбивает с толку к примеру описание структуры yml-файла, где нужно указать структуру категорий своего магазина. Каким образом это помогает соотнести категорий агрегатора с категориями интернет-магазина?)
Буду благодарен всем за любую информацию по этому вопросу.
Яндекс не использует магазинные категории для ранжирования товаров в своих категориях, у них ранжирование зависит от названия товара по похожим товарам. Так проще, чем склеивать магазинные категории со своими. Тем более вдруг магазин ванну запихнет в телевизоры ))
Ваши категории из yml используются для фильтрования для назначения ставок для групп товаров.
Я понимаю, что скорее всего там никто не склеивает категории, а магазинные категории используются для корректировки. Я хотел узнать, в какую сторону копать, чтобы узнать как технически выполнять к примеру первичную обработку файла. (Понятно, что скорее всего менеджеры потом проходятся по результатам, но тем не менее вручную там вряд ли делают всю обработку. )
Вот к примеру я предполагаю, что после парсинга yml файла можно использовать методы автоматической категоризации (чтобы определить, что конкретно эта запись о товаре подходит к категории "мобильные телефоны" агрегатора) или использовать нечеткий поиск для нахождения похожих вариантов написания категорий агрегатора и магазина.