Помогите найти базу словосочетаний с частотой употребления
Собственно спрашивал у Гугла, но те базы на которые он ссылается чаще всего это просто базы синонимов. Меня интересует база такого вида:
слово1, слово2, частота
А еще лучше чтобы были словосочетания не только двойные, но и тройные:
слово1, слово2, слово3, частота
Языки интересуют английский и русский. Я понимаю, что объём такой базы будет нешуточным, но всё же…
Может кто встречал то что мне нужно?
Однако, по паре книг Толстого и нескольким научным статьям хорошую статистику не наберёшь. Я и начал сам делать. Правда, за основу взял электронную библиотеку на русском языке (6 ГБ), а для английского on-line библиотеку Гутенберга (соизмеримого размера). Проблема в том, что для обработки требуется мощный компьютер и много рабочего времени. Я на английскую базу потратил уже две недели, а она поменьше будет, чем русская. К тому же в ней (в базе) я обнаружил некоторые ошибки, связанные с ошибками в моём коде (не критичные, но, возможно придётся переделать). Собственно, нежелание тратить своё драгоценное время и вынудили меня заняться поисками. К сожалению, те базы, что мне уже попадались имеют небольшой размер.
Словарь синонимов Тришина: ( www.trishin.ru/dictionary/DictionarySetup.zip ) БД в Acces-формате будет лежать в папке с установленной программой. Словосочетания отсекаются фильтром «содержит» + " " (пробел)
Далее потребуется работа с онлайновой службой в которой есть данные о частоте употребления (например с такой u.to/JzDBBA )
Для работы с английским языком: полным считается Словарь английского языка Уэбстера (отсюда www.trishin.ru/left/dictionary). Возможно для иностранных языков подойдет предложенный выше метод.
Спасибо! Однако это не совсем то.
Позволю себе Вас процитировать:
>>> Словарь синонимов Тришина: ( www.trishin.ru/dictionary/DictionarySetup.zip ) БД в Acces-формате будет лежать в папке с установленной программой. Словосочетания отсекаются фильтром «содержит» + " " (пробел)
Так вот я хотел бы чтобы база содержала среди прочего:
Словарь синонимов
синонимов Тришина
БД в
в Acces
Acces формате
формате будет
…
Ну и то же самое только для трёх слов. Для четырёх — это уже я думаю совсем нереально.
Собственно для чего? Ну как вариант: эдакий навороченный AUTOCOMPLETE. Начинаешь писать текст, а программа тебе в отдельном окошке варианты следующих слов подсказывает.
Ну и еще одна идея. Не знаю сработает ли. Всем известна технология T9, когда с помощью только цифровых клавиш можно вводить разные тексты, причём используя словарь кнопки можно нажимать всего один раз для каждой буквы. Качество работы так себе, посредственное, однако для набора простых слов годится. А я вот подумал, а почему бы не сделать иначе. Вводить именно что буквы, но не все, а, например, лишь первые и последние.
Допустим фраза:
Хранение типизированных данных в базе данных
будет выглядеть при быстром наборе как
Хе тх дх в бе дх.
Я понимаю, что вариантов может быть несколько, но тогда их надо просто показывать во всплывающем окошке (согласно частоте использования) и дать возможность выбрать пользователю правильный вариант.
Тоже задавался этим вопросом, в результате остановился на определении частоты применения словосочетаний и фраз с помощью поисковых движков.
Может чем-то поможет в вашем деле.