@Konyuh

Как сопоставлять товары при парсинге?

Задача: нужно парсить 40+ сайтов с товарами (интернет-магазины, под каждый магазин - свой парсер) и на выходе получить общую Mysql-таблицу вида товар+цены на каждом сайте. При этом, на разных сайтах у одного и того же товара разные названия и нет артикулов, или артикулы разные. Вопрос: как организовать правильное сопоставление товаров в выходной таблице? Чтобы парсеры как-то видели конкретный товар и заносили о нем инфу (цену) в соответствующую строку таблицы?
  • Вопрос задан
  • 243 просмотра
Пригласить эксперта
Ответы на вопрос 1
Mike_Ro
@Mike_Ro
Python, JS, WordPress, SEO, Bots, Adversting
0. Тренируем нейронку распознавать товары, материалы по Вашей теме:
0.1. https://habr.com/ru/companies/stm_labs/articles/708608/
0.2. https://new-retail.ru/business/e_commerce/price_ru...
0.3. Сравнение текстовых описаний через методы обработки естественного языка (NLP), такие как TF-IDF, word2vec, BERT для извлечения смысла и семантического сравнения текстов (Spacy, Hugging Face Transformers и другие библиотеки NLP для анализа текста).
0.4. Анализ изображений товаров с помощью сверточных нейронных сетей (CNN), которые могут выявлять визуальные сходства между изображениями товаров, даже если они отличаются углом съемки, освещением или масштабом (OpenCV и TensorFlow).
0.5. Графовые базы данных и алгоритмы, которые могут использоваться для идентификации связей между товарами на основе их атрибутов и отношений.
1. Нейронка из п0. распознает товары.
2. Человек в случайном порядке проверяет работу нейронки из п1. и при необходимости, сообщает ей её ошибки. Таким образом происходит дообучение нейронки уже в процессе работы.

Либо, использовать поисковые движки (с его возможностями полнотекстового поиска и сопоставления), по типу Elasticsearch или OpenSearch (получая наибольшую вероятность сопоставления).
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы