Как найти самые используемые слова в книге посредством питона?

Question

lilandre2 @lilandre2

Как найти самые используемые слова в книге посредством питона?

Есть книга в TXT формате. Требуется найти частоту используемых слов и сохранить первые 1000 слов в файл. Не могу понять в какую сторону мне копать. Пока изучаю https://courses.edx.org/courses/course-v1:Microsof... .

Вопрос задан более трёх лет назад
1505 просмотров

Комментировать

Подписаться 9 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее

Решения вопроса 2

7 комментариев

sim3x @sim3x

https://docs.python.org/3/library/collections.html...

Написано более трёх лет назад
Абдулла Мурсалов @amaprograma

c.most_common(1000)

Написано более трёх лет назад
Roman K @deliro

Абдулла Мурсалов: Да хоть 1000000, суть-то ясна.

Написано более трёх лет назад
Арсений Кравченко @Arseny_Info

еще бы в нормальную форму слова привести не повредило (например, при помощи pymorphy2)

Написано более трёх лет назад
lilandre2 @lilandre2 Автор вопроса
Извините, я программированием занимаюсь совсем недавно, но вот я ваш код немного модифицировал, и он выдает ошибку.
<source lang="python"> from collections import Counter x = open('3.txt', encoding='utf8').read() c = Counter(x.split()) # Сплит нужен, чтобы вышел список слов, иначе посчитаем частотность символов pipa=c.most_common(1000) print(pipa) </source>

Ошибка: python: failed to set __main__.__loader__
Написано более трёх лет назад
Roman K @deliro

lilandre2: Первую и последнюю строку убери.

Написано более трёх лет назад
lilandre2 @lilandre2 Автор вопроса

Благодарю, это крутое решение. Скрипт еще и показывает сколько раз слово повторяется в тексте.

Написано более трёх лет назад

2 комментария

Пригласить эксперта

Ответы на вопрос 4

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- вчера
- 85 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- вчера
- 136 просмотров
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 212 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 138 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 131 просмотр
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 106 просмотров
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 251 просмотр
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 293 просмотра
1

ответ
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 188 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 162 просмотра
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Answer 1 · 2016-08-20 15:27:18

from collections import Counter
x = open('Война и мир.txt', encoding='utf8').read()
c = Counter(x.split())  # Сплит нужен, чтобы вышел список слов, иначе посчитаем частотность символов
c.most_common()

Answer 2 · 2016-08-20 15:51:36

import string
from collections import Counter

punctuation_map = dict((ord(char), None) for char in string.punctuation)
prepositions = ['в', 'без', 'до', 'из', 'к', 'на', 'по', 'о', 'от', 'перед', 'при', 'через', 'с', 'у', 'за', 'над', 'об', 'под', 'про', 'для']

text = open('WarAndPeace_rus.txt').read()
clean_data = text.translate(punctuation_map) #Убираем знаки пунктуации
words = Counter([word.strip().lower() for word in clean_data.split() if word not in prepositions]) #Приводим все слова к нижнему регистру и убираем предлоги

with open('words.txt', 'w') as fh:
    fh.write('\n'.join([w[0] for w in words.most_common(1000)]))

Answer 3 · 2016-08-20 15:25:26

Владимир Мартьянов @vilgeforce

Раздолбай и программист

Копайте в сторону словарей в Питоне, например.

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2016-08-20 15:27:07

D' @Denormalization

nlpx.net/archives/29 раздел "Частотный анализ", оно?

Ответ написан более трёх лет назад

1 комментарий

Answer 5 · 2016-08-20 15:28:22

Делаете мапу, где ключ - слово, а значение частота. Каждый раз, когда слово встречается увеличивайте частоту на 1. Потом берете 1000 максимальных частот и выводите ключи в файл. Вот и все.

Answer 6 · 2016-08-20 15:34:09

crawlander @crawlander

На основе этой программы можно допилить https://ru.wikiversity.org/wiki/%D0%9F%D1%80%D0%B8...

Ответ написан более трёх лет назад

Комментировать

Как найти самые используемые слова в книге посредством питона?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт