проще всего взять дамп википедии и сравнить корпусы
все остальное упрется в наличие проиндексированного контента, а это куда дольше / сложнее просто сранивалки
помимо Вики есть дампы как литерутурных текстов, так и какой-нибудь NY Times, т.е. ближе к IRL языку