Есть ли в открытом доступе база данных наиболее используемых существительных и популярных названий продуктов?

Question

yurka @yurka

Data Request

Есть ли в открытом доступе база данных наиболее используемых существительных и популярных названий продуктов?

Люди добрые, если кто нибудь знает подскажите. Нам нужна база данных наиболее используемых существительных и популярных названий продуктов на русском и английском на досках объявлений. Хотим улучшить автоподсказки в поиске объявлений по базе.

Есть ли такое где либо в открытом доступе?

Вопрос задан более трёх лет назад
3957 просмотров

1 комментарий

Подписаться 4 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

3 комментария

yurka @yurka Автор вопроса

Вот это почти то что мы искали! Из списка можно будет вытащить только существительные, и использовать как первоначальнуе базу. Потом со временем собрать свою частотную статистику и придерживаться ее. Плюс дополнить названиями продуктов из статистики запросов поиска.
Спасибо!

Написано более трёх лет назад
Максим Дьяченко @Mendel

Ориентируйтесь лучше на вариант с phpmorphy.
Любой корпус как и словарь всегда сильно уступает реальному словарному запасу в плане жаргонизмов, имен собственных и т.п.
А название брендов о которых вы говорите к этому относится очень сильно.
Но это ладно. В данном случае пхпморфи предлагает предсказание (т.е. предполагает морфемы для незнакомых слов — по аналогии со знакомыми). Это несколько больше чем просто словарь.

Второй аргумент против просто словарей — пхпморфи вам все равно понадобится. Иначе как вы будете сравнивать/находить слова в разных формах? Русский язык это не английский. Очень много падежей, разных окончаний и т.п. А стеминг в данном случае не очень применим.

Написано более трёх лет назад
yurka @yurka Автор вопроса

Сегодня, после некоторых опытов с phpmorphy, пришел к выводу, что к сожалению работа со словарями для данной задачи все-таки уступает место обычному методу использованию запросов поиска.

Если сравнить оба метода (словарем обрабатывались тексты объявлений и обсчитывалась статистика по каждому слову)

1. Наиболее частотные запросы поиска во основном и являются наиболее используемые существительные или назв. продуктов.
А вот после обработки словарем система выдала в наиболее частых словах октровенно не нужные существ., такие как «Солнце», «Человек',
„Слово“ и т.д.
2. Частые запросы поиска так же включают фразы, такие как „Поиск работы в Москве“. При обработке словарем такого добиться очень сложно.

Помощь словаря в обработке запросов поиска так же не существенна, так как „Поиск работы в Москве“ и „Ищу работать в Москве“ выдают общие результаты поиска, и мы смело можем выдавать в подсказке и первый и второй вариант.

К сожалению очень проблематично и в первом и втором случае обрабатывать синонимы. Допустим „iphone“ и „Айфон“ В этом деле не помогает не словарь, ни статистика запросов…

Написано более трёх лет назад

1 комментарий

5 комментариев

yurka @yurka Автор вопроса

Пробовали, получается каша. В автоподсказке вываливаются не только существительные, но и прилагательные и глаголы и все остальные части речи. Если бы знать как отфильтровать этот мусор, проблему бы так и решили. Логически это наиболее правильное решение.

Написано более трёх лет назад
Пума Тайланд @opium

Ну по словарю прогоните и оставьте только существительные.

Написано более трёх лет назад
yurka @yurka Автор вопроса

Если есть такой словарь на примете, могли бы подсказать? Это бы конечно решило проблему. Тогда можно еще отфильтровать по частоте употребления и проблема решена.

Написано более трёх лет назад
Пума Тайланд @opium

Я думаю нагуглить словарь не проблема.

Написано более трёх лет назад
yurka @yurka Автор вопроса

pymorphy как-то прошел мимо меня. Очень интересный проект, спасибо за подсказку.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Data Request

Простой
Где скачать (купить) базы ЕГРЮЛ и ЕГРИП?
- 2 подписчика
- 29 окт. 2025
- 309 просмотров
1

ответ
Data Request

Простой
Есть ли база данных лекарств с картинками и инструкциями 2025?
- 1 подписчик
- более года назад
- 237 просмотров
1

ответ
Data Request

Простой
Где взять полный список городов России в JSON?
- 2 подписчика
- более года назад
- 1013 просмотров
2

ответа
Microsoft SQL Server

+1 ещё

Простой
Где скачать тестовые базы?
- 4 подписчика
- более года назад
- 2482 просмотра
2

ответа
Data Request

Простой
Где найти данные о чрезвычайных ситуациях?
- 1 подписчик
- более года назад
- 396 просмотров
2

ответа
Data Request

Простой
Где можно найти базу отелей, с номерами и фото?
- 1 подписчик
- более года назад
- 99 просмотров
1

ответ
Data Request

Простой
Где взять базу данных разборов слов по составу?
- 1 подписчик
- более года назад
- 119 просмотров
2

ответа
Data Request

Простой
Есть открытое API, где можно получить данные по Акциям/Фонде?
- 1 подписчик
- более года назад
- 71 просмотр
0

ответов
Data Request

Простой
Существуют ли датасеты похожих символов?
- 1 подписчик
- более двух лет назад
- 95 просмотров
0

ответов
Data Request

Простой
Есть ли датасеты текстур майнкрафта до 12.2 включительно с указанными айдишниками от mcpi,?
- 1 подписчик
- более двух лет назад
- 72 просмотра
1

ответ
Показать ещё Загружается…

До этого использовали накопленные запросы поиска как базу для автоподсказок, но такой подход требует ручной доработки.

Answer 1 · 2013-07-14 11:28:00

Вам стоит посмотреть в сторону того, что у лингвистов называется corpus, и результатов его машинной обработки.

Для эксперимента можно начать с www.artint.ru/projects/frqlist.php, там есть списки слов, с проставленными частями речи и упорядоченных по частоте, например — www.artint.ru/projects/frqlist/lemma.num.zip

Список слов, доступный с этой страницы, содержит примерно 35000 слов с частотой большей 1 ipm (вхождений на миллион слов, instances per million words). Имеется также более короткий список из 5000 наиболее частотных русских слов. Списки используют кодировку кириллицы Windows-1251 и упакованы утилитой WinZip (пользователи Linux или Mac могут использовать StuffIt для распаковки).

Структура списков соответствует формату лемматизированных списков из British National Corpus (BNC), созданных Адамом Килгарифом, а именно:
порядковый номер, частота (ipm), лемма, часть речи (классификация BNC).

Answer 2 · 2013-07-14 00:44:41

Если есть теги в объявлениях их можно использовать как автоподсказки. Помоему самый простой вариант.

Answer 3 · 2013-07-14 00:54:29

Пума Тайланд @opium

Просто люблю качественно работать

НУ просто заиндексируйте ваши объявления и юзайте слова из них.

Ответ написан более трёх лет назад

5 комментариев

Есть ли в открытом доступе база данных наиболее используемых существительных и популярных названий продуктов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт