Задать вопрос

Как токенизировать (разделить) на предложения русский текст в Python?

Имеется библиотека https://github.com/mhq/train_punkt, которая может разделить русский текст на отдельные предложения. Вопрос: какие библиотеки она импортирует и где их взять? Объясните, как будет выглядеть синтаксис вызова функции токенизации.
  • Вопрос задан
  • 1879 просмотров
Подписаться 1 Оценить Комментировать
Помогут разобраться в теме Все курсы
  • Нетология
    Python-разработчик: расширенный курс + нейросети
    12 месяцев
    Далее
  • Яндекс Практикум
    Python-разработчик
    10 месяцев
    Далее
  • Skillbox
    Профессия Python-разработчик + ИИ
    10 месяцев
    Далее
Пригласить эксперта
Ответы на вопрос 2
LazyTalent
@LazyTalent
Data Engineer, Freelancer
Я бы, на вашем месте, лучше использовал NLTK
Ответ написан
@schokoro
Вам нужен https://github.com/natasha/razdel
$ pip install razdel

from razdel import sentenize
sentenize(text)
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы