Помогите найти базу словосочетаний с частотой употребления
Собственно спрашивал у Гугла, но те базы на которые он ссылается чаще всего это просто базы синонимов. Меня интересует база такого вида:
слово1, слово2, частота
А еще лучше чтобы были словосочетания не только двойные, но и тройные:
слово1, слово2, слово3, частота
Языки интересуют английский и русский. Я понимаю, что объём такой базы будет нешуточным, но всё же…
Может кто встречал то что мне нужно?
Однако, по паре книг Толстого и нескольким научным статьям хорошую статистику не наберёшь. Я и начал сам делать. Правда, за основу взял электронную библиотеку на русском языке (6 ГБ), а для английского on-line библиотеку Гутенберга (соизмеримого размера). Проблема в том, что для обработки требуется мощный компьютер и много рабочего времени. Я на английскую базу потратил уже две недели, а она поменьше будет, чем русская. К тому же в ней (в базе) я обнаружил некоторые ошибки, связанные с ошибками в моём коде (не критичные, но, возможно придётся переделать). Собственно, нежелание тратить своё драгоценное время и вынудили меня заняться поисками. К сожалению, те базы, что мне уже попадались имеют небольшой размер.
Написано
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.