Как токенизировать (разделить) на предложения русский текст в Python?

Имеется библиотека https://github.com/mhq/train_punkt, которая может разделить русский текст на отдельные предложения. Вопрос: какие библиотеки она импортирует и где их взять? Объясните, как будет выглядеть синтаксис вызова функции токенизации.
  • Вопрос задан
  • 1810 просмотров
Пригласить эксперта
Ответы на вопрос 2
LazyTalent
@LazyTalent
Data Engineer, Freelancer
Я бы, на вашем месте, лучше использовал NLTK
Ответ написан
@schokoro
Вам нужен https://github.com/natasha/razdel
$ pip install razdel

from razdel import sentenize
sentenize(text)
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы