Как токенизировать (разделить) на предложения русский текст в Python?
Имеется библиотека https://github.com/mhq/train_punkt, которая может разделить русский текст на отдельные предложения. Вопрос: какие библиотеки она импортирует и где их взять? Объясните, как будет выглядеть синтаксис вызова функции токенизации.
Lntk считает русские сокращения за конец предложения и делит его на части. Библиотека по ссылке добавляет поддержку русского языка для как раз для lntk. Правда не могу понять, как ее установить. Документации в интернете никакой не нашел.
Судя по коду, необходимо скачать все файлы в папку с проектом, устаноить (через pip): nltk, beautifulsoup4 и wikipydia.
Вызов функции:
ru_text = 'Какой-то текст. Просто текст'
tokenizer = nltk.data.load('tokenizers/punkt/russian.pickle')
print(tokenizer.tokenize(ru_text)
Также обратите внимание, что в последний раз код обновлялся в 2010 году, поэтому необходимы правки:
from BeautifulSoup import BeautifulSoup - заменить на - from bs4 import BeautifulSoup
Может быть еще что-то надо будет поменять, особо не смотрел.