alekseev_ap
@alekseev_ap
Свободный разработчик

Помогите найти базу словосочетаний с частотой употребления

Собственно спрашивал у Гугла, но те базы на которые он ссылается чаще всего это просто базы синонимов. Меня интересует база такого вида:
слово1, слово2, частота
А еще лучше чтобы были словосочетания не только двойные, но и тройные:
слово1, слово2, слово3, частота
Языки интересуют английский и русский. Я понимаю, что объём такой базы будет нешуточным, но всё же…
Может кто встречал то что мне нужно?
  • Вопрос задан
  • 4910 просмотров
Пригласить эксперта
Ответы на вопрос 4
Можно взять пару книг толстого и несколько научных статей и провести частотный анализ самому. Это не так сложно.
Ответ написан
@FullThrottle
Словарь синонимов Тришина: ( www.trishin.ru/dictionary/DictionarySetup.zip ) БД в Acces-формате будет лежать в папке с установленной программой. Словосочетания отсекаются фильтром «содержит» + " " (пробел)
Далее потребуется работа с онлайновой службой в которой есть данные о частоте употребления (например с такой u.to/JzDBBA )
Для работы с английским языком: полным считается Словарь английского языка Уэбстера (отсюда www.trishin.ru/left/dictionary). Возможно для иностранных языков подойдет предложенный выше метод.
Ответ написан
@AndreyMorozov
opencorpora.org/?page=downloads
Смотрите биграммы и триграммы.
Ответ написан
goldena
@goldena
Тоже задавался этим вопросом, в результате остановился на определении частоты применения словосочетаний и фраз с помощью поисковых движков.
Может чем-то поможет в вашем деле.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы