Сегодня, после некоторых опытов с phpmorphy, пришел к выводу, что к сожалению работа со словарями для данной задачи все-таки уступает место обычному методу использованию запросов поиска.
Если сравнить оба метода (словарем обрабатывались тексты объявлений и обсчитывалась статистика по каждому слову)
1. Наиболее частотные запросы поиска во основном и являются наиболее используемые существительные или назв. продуктов.
А вот после обработки словарем система выдала в наиболее частых словах октровенно не нужные существ., такие как «Солнце», «Человек',
„Слово“ и т.д.
2. Частые запросы поиска так же включают фразы, такие как „Поиск работы в Москве“. При обработке словарем такого добиться очень сложно.
Помощь словаря в обработке запросов поиска так же не существенна, так как „Поиск работы в Москве“ и „Ищу работать в Москве“ выдают общие результаты поиска, и мы смело можем выдавать в подсказке и первый и второй вариант.
К сожалению очень проблематично и в первом и втором случае обрабатывать синонимы. Допустим „iphone“ и „Айфон“ В этом деле не помогает не словарь, ни статистика запросов…
Вот это почти то что мы искали! Из списка можно будет вытащить только существительные, и использовать как первоначальнуе базу. Потом со временем собрать свою частотную статистику и придерживаться ее. Плюс дополнить названиями продуктов из статистики запросов поиска.
Спасибо!
Если есть такой словарь на примете, могли бы подсказать? Это бы конечно решило проблему. Тогда можно еще отфильтровать по частоте употребления и проблема решена.
Пробовали, получается каша. В автоподсказке вываливаются не только существительные, но и прилагательные и глаголы и все остальные части речи. Если бы знать как отфильтровать этот мусор, проблему бы так и решили. Логически это наиболее правильное решение.