Насколько реально собрать систему поиска товаров на питоне?

Всем привет.

  • Есть проект, на котором люди оставляют отзывы на определенные товары.

  • Есть партнерская площадка admitad, где компании платят веб-мастерам за лиды.

  • Проект монетизируется тем, что люди смотрят отзывы (обзорные статьи), потом переходят по ссылке в магазин и там делают покупку.


Проблема заключается в том, что партнерские магазины время от времени уходят, закрываются, появляются новые, обновляют свои товары и так далее. В итоге, актуализация всех данных (а это порядка - 20 000 товаров) занимает месяц работы (а то и больше).

Можно ли написать систему, которая бы брала данные из нашего каталога отзывов, брала некий произвольный интернет магазин и соотносила

  1. URL
  2. Цену
  3. Наличие

Мои попытки написать такую систему столкнулись с тем, что:

1) Товары сложно соотнести, так как веб-мастера называют их как хотят. В итоге, даже если в магазине есть товар, не факт, что он будет иметь официальное название. (даже если вбивать официальное имя товара и конкретный сайт в гугл/яндекс, то не факт, что найдут именно то, что надо).

2) Часто разные размеры, разные цвета выставляются отдельными лотами, в итоге идет неразбериха.

3) Под каждый магазин надо делать отдельный анализатор html - но это меньшее из зол. Тут бьютисуп справляется.

Или такая система это уже из разряда рокет саенса и в одного такое не делается?
  • Вопрос задан
  • 662 просмотра
Решения вопроса 3
@Eldar01
Если там есть микроразметка - считайте вам повезло. Сможете точно находить место где цена. И это будет полностью автоматически.

Все остальное можно только косвенно сделать (искать ХОТЬ ГДЕ-ЛИБО на странице упоминание цены). Или в полуручном режиме - тут вам в помощь Scrapy, он как раз на Python.
Ответ написан
Комментировать
chupasaurus
@chupasaurus
Сею рефлекторное, злое, временное
Такая система из области фентези, потому что сами сайты этих самых магазинов могут меняться хоть раз в месяц, а для отслеживания ИИ ещё не дорос (точнее дорос, но отдел "контент-менеджеров"-людей сильно дешевле выйдет). А раз вручную дешевле, то написать минимальный сайт с формочкой с полями "товар, отзывы, урл в магазине, наличие" и пусть копают до победы.
Ответ написан
ri_gilfanov
@ri_gilfanov
Web- and desktop-developer
Может проще написать API для интеграции сайтов-партнёров и вашего сервиса?

При добавлении новых товаров, партнёр вручную соотносит их с товарами на вашем сервисе.

А вот все изменения цен, наличия и пр. с сайта-партнёра должны автоматически переносится на ваш сервис. От сайта-партнёра -- запрос на обновление данных, от вашего сервиса -- ответ с подтверждением, что данные обновлены.

Большинство интернет-магазинов используют одни и те же CMS, а значит можно написать и предложить основные плагины для интеграции.

Разработка простого API и написание плагинов кажется более простым и разумным решением, чем собственная поисковая система.

Я не представляю, как не будучи Google`ом или Яндексом упорядочить классический хаос товарных наименований. Разница в 1-2 символа может быть в написании одной модели товара, разных товаров одного модельного ряда и даже у товаров разных производителей (см. китайские бренды, что на 1 букву отличаются от мировых). А ведь может быть ещё проблема неполных наименований, когда остаётся только гадать какой именно товар имелся ввиду.

В общем, я бы пошёл решать задачу с другой стороны -- со стороны партнёров.
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы