@anya_hacker

Как построить базовые частотные списки, используя стоп-листы?

Здравствуйте. Скажу сразу как есть. Есть задание, условие которого не понятно:

Взять тексты двух похожих тематик (кино и сериалы).
1) Построить базовые частотные списки с использованием стандартного стоп-листа.
2) Посмотреть на результаты, скорректировать стоп-листы.
3) Снова построить частотные списки, сравнить результаты.

Я не прошу решение, прошу объяснить что требуется в задании. Что значит частотные списки? У меня есть стоп-лист, в котором есть слова. Частотный список - это список, в котором указано количество стоп-слов в данном тексте?
И что значит "скорректировать" стоп-листы? Добавить туда слова, которые ранее не встречались?
Вопросы могут быть глупыми, не совсем поняла что от меня требуют.
  • Вопрос задан
  • 46 просмотров
Решения вопроса 1
@GlamorousCar
Часто́тный слова́рь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости.
Скорей всего надо удалить из текстов все стоп слова. к примеру вот так, а потом сделать частотный анализ вот так. Если в получившимся частотном списке будет много лишних слов: междометия, предлоги... значит наш стоп-лист их не обрабатывает, и их надо добавить туда
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы