Есть ли в открытом доступе база данных наиболее используемых существительных и популярных названий продуктов?

Люди добрые, если кто нибудь знает подскажите. Нам нужна база данных наиболее используемых существительных и популярных названий продуктов на русском и английском на досках объявлений. Хотим улучшить автоподсказки в поиске объявлений по базе.



Есть ли такое где либо в открытом доступе?
  • Вопрос задан
  • 3943 просмотра
Пригласить эксперта
Ответы на вопрос 3
ntkt
@ntkt
Потомственный рыцарь клавиатуры и паяльника
Вам стоит посмотреть в сторону того, что у лингвистов называется corpus, и результатов его машинной обработки.

Для эксперимента можно начать с www.artint.ru/projects/frqlist.php, там есть списки слов, с проставленными частями речи и упорядоченных по частоте, например — www.artint.ru/projects/frqlist/lemma.num.zip
Список слов, доступный с этой страницы, содержит примерно 35000 слов с частотой большей 1 ipm (вхождений на миллион слов, instances per million words). Имеется также более короткий список из 5000 наиболее частотных русских слов. Списки используют кодировку кириллицы Windows-1251 и упакованы утилитой WinZip (пользователи Linux или Mac могут использовать StuffIt для распаковки).

Структура списков соответствует формату лемматизированных списков из British National Corpus (BNC), созданных Адамом Килгарифом, а именно:
порядковый номер, частота (ipm), лемма, часть речи (классификация BNC).
Ответ написан
olgab
@olgab
Если есть теги в объявлениях их можно использовать как автоподсказки. Помоему самый простой вариант.
Ответ написан
opium
@opium
Просто люблю качественно работать
НУ просто заиндексируйте ваши объявления и юзайте слова из них.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы