Задать вопрос
TheSteelRat
@TheSteelRat

Как идентифицировать один и тот же товар в разных интернет-магазинах?

Есть следующая задача. Необходимо сформировать каталог товаров с ссылками на позиции этих товаров в интернет-магазинах. По примеру price.ua, ava.ua, hotline.ua и прочих сервисов.

Я рассматривал следующие варианты:
  1. Выгружаем данные эталонного каталога, допустим, Yandex.Market. Затем проходимся по товарам в каждом интернет-магазине и пытаемся по заголовкам определить схожесть с товарами в эталоне, подчищая названия от маркетинговой и SEO-шелухи.
  2. Проходимся по всем интернет-магазинам по очереди. Берём первый. Извлекаем все товары и пытаемся очистить заголовки. Берём второй. Пытаемся сопоставить товары с товарами предыдущего магазина. Если совпадения нет, то добавляем новый.


Всё это колдовство с названиями мне очень не нравится. Допустим в YM есть такой ноут и вот он же в Розетке. Избавиться от слов "Ноутбук" и "Суперцена!" не проблема. Это у них шаблонные заголовки. А вот то, что название модели рознится - это уже серьёзней ("E1-571G-33114G75Ma" vs "E1-571G-33114G75MAKS").

Есть ли какие-то более точные варианты идентификации товаров? Чтобы не нужно было шаманить с угадыванием по названию.
  • Вопрос задан
  • 2770 просмотров
Подписаться 2 Оценить Комментировать
Пригласить эксперта
Ответы на вопрос 3
Andrbez
@Andrbez
Procrastination
Сочетание производитель + артикул. В приведенном примере это: Acer + NX.M7CEU.036.
Ответ написан
nalomenko
@nalomenko
Руководитель отдела разработок в студии «Lava»
«Яндекс.Маркет», прайс.юа и прочие аггрегаторы товаров попросту предоставляют владельцам интернет-магазинов возможность в специальном XML-формате выгружать данные о своих товарах, где есть поля с кодом модели того или продукта.

В Яндексе это YML. У других — поищите в специальных разделах для разработчиков на каждом из сайтов.
Ответ написан
viktorvsk
@viktorvsk
E1571G33114G75MA
E1571G33114G75MAKS

Знаки пунктуации и другие "стоп слова" (1366x768 LED LAPTOP...) нужно хардкодить и удалять сразу же. Регистр, в принципе, тоже сути не имеет.С удалением пробелов, возможно, надо поэксперементировать.
Когда на стадии "очитски" достгли эксперементально приемлемого оптимума, идете и сверяете метрику. И определяете диапазон, при котором считаете, что слова действительно идентичны. Опять же, эксперементально.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы