Есть задача сделать мини рекламную сеть a-la Яндекс Директ для нескольких интернет магазинов.
На сайтах партнерах (новостные сайты, не больше 10 сайтов, не больше 10 тыс документов на каждом сайте) будет размещаться js код, и нужно формировать релевантные объявления из ассортимента магазина.
Это скорее Proof of Concept, чтобы понять, стоит копать в эту сторону или нет, поэтому нужно пусть не идеальное, но быстро реализуемое решение.
В качестве входных данных есть название документа и содержимое документа.
Пример заголовка: Самсунг выпустил новый телефон Samsung Galaxy III
Также есть база моделей которые продаются в магазина (не больше 1000 наименований).
Как из текста новости понять о какой модели идет речь?
Решение в лоб - это сравнение базы моделей с текстом страницы, если искомое ключевое слово нашлось - то значит все хорошо. Имхо это не самое оптимальное решение + время, затрачиваемое на сравнение, будет расти с ростом количества документов и моделей в базе.
В продолжение Вашей идеи, могу предложить следующее:
1. Все новости после парсинга записываются в БД (номер новости, текст новости, чистый текст). Чистый текст - это текст новости без русских слов
2. База новостей (id и чистый текст) индексируется каким-нибудь движком аля sphinx
3. Проходите скриптом по всем моделям и выполняете запрос к sphinx, и выбираете самый релевантный результат и переносите такую новость в другую таблицу (или флаг ставите). Это будет очень быстро