TimLee
@TimLee

Как узнать самые частотные слова в книге?

Есть книга на английском языке. Надо узнать, какие в этой книге самые частотные слова.
В результате хочется получить что-то похоже на:
1. «The» - 5943 раза
2. «Is» - 4311 раза и т.д.
  • Вопрос задан
  • 4032 просмотра
Решения вопроса 1
1) Копируете текст в Word
2) Заменяете все пробелы на перенос строки; все запятые, точки и иные знаки на ничто; все слова в нижний регистр
3) Копируете получившийся столбец в Excel
4) Считаете частотность повторения значений в столбце средствами Excel - есть уйма примеров в Яндексе
5) Копируете специальной вставкой ("значения") словарь и частоты на другой лист, сортируете по убыванию частоты
Ответ написан
Пригласить эксперта
Ответы на вопрос 3
TimLee
@TimLee Автор вопроса
Всё-таки на втором месте оказалось "and"
Ответ написан
Комментировать
opium
@opium
Просто люблю качественно работать
Напишите программу, сделайте в ней словарь, если слово уже в нем добавляете ему +1, если нет то добавляете в словарь, написать наверно за час можно с отладкой, ну и любую книгу распарсит прога за несколько секунд.
Ответ написан
raskumandrin
@raskumandrin
В простом варианте как-то так:
#!/usr/bin/perl
my %word;
while (<>) {
    $word{lc($_)}++ foreach split /\W+/;
}
print "$_ : $word{$_}\n"
    foreach reverse sort { $word{$a} <=> $word{$b} } keys %word;

А так чтобы ничего не писать — присылайте файл по почте :)
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы