@petr-ivanov

Как выделить ключевое слово из новости?

Есть задача сделать мини рекламную сеть a-la Яндекс Директ для нескольких интернет магазинов.

На сайтах партнерах (новостные сайты, не больше 10 сайтов, не больше 10 тыс документов на каждом сайте) будет размещаться js код, и нужно формировать релевантные объявления из ассортимента магазина.

Это скорее Proof of Concept, чтобы понять, стоит копать в эту сторону или нет, поэтому нужно пусть не идеальное, но быстро реализуемое решение.

В качестве входных данных есть название документа и содержимое документа.
Пример заголовка: Самсунг выпустил новый телефон Samsung Galaxy III

Также есть база моделей которые продаются в магазина (не больше 1000 наименований).

Как из текста новости понять о какой модели идет речь?

Решение в лоб - это сравнение базы моделей с текстом страницы, если искомое ключевое слово нашлось - то значит все хорошо. Имхо это не самое оптимальное решение + время, затрачиваемое на сравнение, будет расти с ростом количества документов и моделей в базе.

Какие еще варианты решения есть?

Язык PHP, если это важно.
  • Вопрос задан
  • 2383 просмотра
Пригласить эксперта
Ответы на вопрос 1
shineblu
@shineblu
Добрый день,

В продолжение Вашей идеи, могу предложить следующее:

1. Все новости после парсинга записываются в БД (номер новости, текст новости, чистый текст). Чистый текст - это текст новости без русских слов
2. База новостей (id и чистый текст) индексируется каким-нибудь движком аля sphinx
3. Проходите скриптом по всем моделям и выполняете запрос к sphinx, и выбираете самый релевантный результат и переносите такую новость в другую таблицу (или флаг ставите). Это будет очень быстро

Успехов!
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы