Необходимо получить первые N наиболее встречающиеся слова в текстовом файле?

Question

Иван Ершов @iwanerhov

Программист С/C++

Необходимо получить первые N наиболее встречающиеся слова в текстовом файле?

Товарищи. Задача такова. Есть текстовый файл. Нужно получить первые N наиболее часто повторяющиеся слова (в порядке убывания частоты встречаемости). При сравнении регистр не учитывать. И необходимо составить стоп словарь ! Словарь хранить в файле.... Разделителями слов считаются пробел, табуляция, символы перевода строки, знаки препинания

Можно пользоваться чем угодно (STL)! Товарищи подскажите :D

Вопрос задан более трёх лет назад
2929 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Разработчик на C++

12 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unreal Engine + ИИ

9 месяцев

Далее
Stepik

Профессия: Разработчик C++ (Junior)

2 месяца

Далее

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

Простой
Нарушается ли тут strict aliasing rule?
- 1 подписчик
- 19 июл.
- 42 просмотра
1

ответ
C++

Простой
Безопасно ли преобразование reinterpret_cast из указателя в массив?
- 1 подписчик
- 18 июл.
- 47 просмотров
1

ответ
C++

Простой
Как сделать скриншот второго монитора на С++?
- 1 подписчик
- 14 июл.
- 123 просмотра
4

ответа
C++

Простой
Возможно ли сделать скрин действующего окна через Alt + PrtSc на С++?
- 1 подписчик
- 08 июл.
- 138 просмотров
2

ответа
C++

Простой
Как можно через ООП сериализировать в разные форматы в едином стиле?
- 2 подписчика
- 07 июл.
- 105 просмотров
3

ответа
C++

+1 ещё

Простой
Почему компилятор подчёркивает импортируемый класс как ошибку «индификатор не определён»?
- 1 подписчик
- 04 июл.
- 118 просмотров
2

ответа
C++

Сложный
Концепт проверки совместимости с шаблонным конструктором?
- 1 подписчик
- 25 июн.
- 102 просмотра
1

ответ
C++

Простой
Я единственный у кого cppreference.com через раз падает с ERR_TIMED_OUT?
- 1 подписчик
- 21 июн.
- 194 просмотра
2

ответа
C++

+1 ещё

Простой
Как правильно посчитать UV координаты из локальных нормальных?
- 1 подписчик
- 20 июн.
- 113 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 649 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2014-10-28 18:59:17

brutal_lobster @brutal_lobster

Посмотрите код uniq из coreutils ;)

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2014-10-28 21:29:28

Есть тупой (в лоб), но медленный вариант — сортировка и подсчет количества повторов с составлением эдакого псевдодерева. Есть сложный вариант чуть побыстрей - деревья. Можно и еще уйму более быстрых и значительно более сложных вариантов рассмотреть.

Answer 3 · 2014-10-29 19:18:24

А что подсказать? В чем вопрос?

Или написать за Вас код?

Алгоритм прост:
Читаем слова из файлового потока и собираем в map примерно так

ifstream fs("filename.txt");
map freq; // частоты файлов
string word;
while(read_next_word(fs, word)) // read and skip spaces tabs etc... (тут логика пропуска ненужных символов)
{
transform(word.begin(), word.end(), word.begin(), tolower); //lowercase
freq[word]++; // увеличиваем счетчик для нашего слова
}

теперь у нас есть частоты всех слов в мапе скопируем ее в вектор и отсортируем по частотам

vector > vocabulary(freq.begin(), freq.end());
sort(vocabulary.begin(), vocabulary.end(), less_second); // можно лямбдой будет проще если можно с++11

Слова в контейнере vocabulary отсортированы по частоте и делать с ними можно что угодно

где
bool less_second(const pair& a, const pair& b)
{
return a.second < b. second;
}

Это действительно весь код. (кроме логики пропуска символов, но там все просто по моему)

Необходимо получить первые N наиболее встречающиеся слова в текстовом файле?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт