Как токенизировать (разделить) на предложения русский текст в Python?

Question

Валерий Варлачёв @FortuneTeller

Python

Как токенизировать (разделить) на предложения русский текст в Python?

Имеется библиотека https://github.com/mhq/train_punkt, которая может разделить русский текст на отдельные предложения. Вопрос: какие библиотеки она импортирует и где их взять? Объясните, как будет выглядеть синтаксис вызова функции токенизации.

Вопрос задан более трёх лет назад
1875 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

2 комментария

Валерий Варлачёв @FortuneTeller Автор вопроса

Lntk считает русские сокращения за конец предложения и делит его на части. Библиотека по ссылке добавляет поддержку русского языка для как раз для lntk. Правда не могу понять, как ее установить. Документации в интернете никакой не нашел.

Написано более трёх лет назад
Дмитрий @LazyTalent

Судя по коду, необходимо скачать все файлы в папку с проектом, устаноить (через pip): nltk, beautifulsoup4 и wikipydia.
Вызов функции:
ru_text = 'Какой-то текст. Просто текст'
tokenizer = nltk.data.load('tokenizers/punkt/russian.pickle')
print(tokenizer.tokenize(ru_text)

Также обратите внимание, что в последний раз код обновлялся в 2010 году, поэтому необходимы правки:
from BeautifulSoup import BeautifulSoup - заменить на - from bs4 import BeautifulSoup

Может быть еще что-то надо будет поменять, особо не смотрел.

Если не взлетит, то можно попробовать вот это https://github.com/Limfocit/train_punkt_russian - кроме nltk больше ничего не нужно

Написано более трёх лет назад