Вам стоит посмотреть в сторону того, что у лингвистов называется corpus, и результатов его машинной обработки.
Для эксперимента можно начать с
www.artint.ru/projects/frqlist.php, там есть списки слов, с проставленными частями речи и упорядоченных по частоте, например —
www.artint.ru/projects/frqlist/lemma.num.zip
Список слов, доступный с этой страницы, содержит примерно 35000 слов с частотой большей 1 ipm (вхождений на миллион слов, instances per million words). Имеется также более короткий список из 5000 наиболее частотных русских слов. Списки используют кодировку кириллицы Windows-1251 и упакованы утилитой WinZip (пользователи Linux или Mac могут использовать StuffIt для распаковки).
Структура списков соответствует формату лемматизированных списков из British National Corpus (BNC), созданных Адамом Килгарифом, а именно:
порядковый номер, частота (ipm), лемма, часть речи (классификация BNC).