Есть следующая задача. Необходимо сформировать каталог товаров с ссылками на позиции этих товаров в интернет-магазинах. По примеру price.ua, ava.ua, hotline.ua и прочих сервисов.
Я рассматривал следующие варианты:
- Выгружаем данные эталонного каталога, допустим, Yandex.Market. Затем проходимся по товарам в каждом интернет-магазине и пытаемся по заголовкам определить схожесть с товарами в эталоне, подчищая названия от маркетинговой и SEO-шелухи.
- Проходимся по всем интернет-магазинам по очереди. Берём первый. Извлекаем все товары и пытаемся очистить заголовки. Берём второй. Пытаемся сопоставить товары с товарами предыдущего магазина. Если совпадения нет, то добавляем новый.
Всё это колдовство с названиями мне очень не нравится. Допустим в YM есть
такой ноут и
вот он же в Розетке. Избавиться от слов "Ноутбук" и "Суперцена!" не проблема. Это у них шаблонные заголовки. А вот то, что название модели рознится - это уже серьёзней ("E1-571G-33114G75Ma" vs "E1-571G-33114G75MAKS").
Есть ли какие-то более точные варианты идентификации товаров? Чтобы не нужно было шаманить с угадыванием по названию.