Как разбить текст на предложения, не используя регулярные выражения?

Question

Евгений Трофимов @deadrime

Fullstack web developer

Как разбить текст на предложения, не используя регулярные выражения?

Дали в вузе задачку - разбить русский текст в utf-8 на предложения. Но без регулярных выражений.
Нужно, чтобы программа обрабатывала ситуацию, когда первое слово предложения начинается с прописной буквы.
Казалось бы легко -

text = text.replace('. ', '.|').replace('! ', '!|').replace('? ', '?|')
sentences = text.split('|')

Но даётся такой текст, что

Попробуй, подойди! вишь какой! вот большая цяца! ты думаешь, я на тебя суда не найду

это одно предложение. И '! ' уже будет обрабатываться неправильно.

Ладно, думаю, можно, наверное потом пройтись по списку предложений и проверять, начинается ли следующее с маленькой буквы, если да - то объединить его с предыдущим.
т.е. что-то типа

i = 0
while i < len(sentences) - 1:
    if not sentences[i + 1].istitle():
        sentences[i] += sentences[i + 1]
        sentences.pop(i + 1)
    i += 1

Но... Этот костыль не особо работает, возможно из-за русской кодировки.

В общем что-то я не понял, пробовал сравнить с диапазоном кодов символов больших букв в юникоде, но он почему-то ругается на

ch1 = 'Б'
print ord(ch1)

Говорит, мол

TypeError: ord() expected a character, but string of length 2 found

А .istitle вообще работает неправильно -

ch1 = 'Б'
ch2 = 'б'
if ch1.istitle():
    print ("Верхний")
else:
    print ("Нижний")

if ch2.istitle():
    print ("Верхний")
else:
    print ("Нижний")

Выводит нижний в обоих случаях..

Может я не в те дебри забрел и решение куда проще?

Вот такой вот текст предлагают разбить на предложения в задании:

"Смотри, как расхрабрился!" говорил Чуб, оставшись один на улице. „Попробуй, подойди! вишь какой! вот большая цяца! ты думаешь, я на тебя суда не найду. Нет, голубчик, я пойду, и пойду прямо к комиссару. Ты у меня будешь знать. Я не посмотрю, что ты кузнец и маляр. Однако ж посмотреть на спину и плечи: я думаю, синие пятна есть. Должно быть, больно поколотил вражий сын! жаль, что холодно и не хочется скидать кожуха! Постой ты, бесовской кузнец, чтоб чорт поколотил и тебя, и твою кузницу, ты у меня напляшешься! вишь, проклятый шибеник! однако ж, ведь теперь его нет дома. Солоха, думаю, сидит одна. Гм... оно ведь недалеко отсюда; пойти бы! Время теперь такое, что нас никто не застанет. Может, и того будет можно... вишь, как больно поколотил проклятый кузнец!“

Ну т.е. по сути алгоритм тут простой, нужно добавить в список все, что было до [i]-го символа, если
1)[i] == '.' and [i+1]==' ' and [i+2] - Символ верхнего регистра
2)[i] == '!' and [i+1]== ' ' and [i+2] - Символ верхнего регистра
3) Тоже самое для '?'

Вопрос задан более трёх лет назад
544 просмотра

1 комментарий

Подписаться 1 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Какой отлдачик для Python поставить новичку?
- 1 подписчик
- 12 часов назад
- 48 просмотров
1

ответ
Python

Простой
Существует ли менеджер виртуальных окружений для python, который хранит все пакеты в одном месте?
- 1 подписчик
- 18 дек.
- 166 просмотров
1

ответ
Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 16 дек.
- 212 просмотров
1

ответ
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 16 дек.
- 67 просмотров
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 188 просмотров
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 211 просмотров
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 138 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 240 просмотров
0

ответов
Программирование

Простой
Какие технологии/ИИ есть для клонирования русской речи?
- 12 подписчиков
- 02 дек.
- 679 просмотров
1

ответ
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 235 просмотров
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Backend Developer

Hard Bootstrapping LLC. • Санкт-Петербург

от 175 000 до 350 000 ₽

Пример текста, который полностью ломает весь ваш алгоритм: "Зебры (лат. Hippotigris) — подрод рода лошади..."

https://ru.wikipedia.org/wiki/%D0%97%D0%B5%D0%B1%D...

Answer 1 · 2016-12-23 12:41:21

"Дожмите" ваше собственное решение

text = text.replace('. ', '.|').replace('! ', '!|').replace('? ', '?|')

добавив проверку на вхождение заглавных букв и чуточку подкорректировав аргументы в replace():

>>> letters = 'АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЭЮЯ'
>>> text = '"Смотри, как расхрабрился!" говорил Чуб, оставшись один на улице..' # и далее по тексту
>>> for letter in letters:
	        if letter in text:
		            text = text.replace('. '+letter, '.|'+letter).replace('. "'+letter, '.|"'+letter).replace('! '+letter, '!|'+letter)
		
>>> for sentence in text.split('|'):
	        print(sentence)
	
"Смотри, как расхрабрился!" говорил Чуб, оставшись один на улице.
"Попробуй, подойди! вишь какой! вот большая цяца! ты думаешь, я на тебя суда не найду.
Нет, голубчик, я пойду, и пойду прямо к комиссару.
Ты у меня будешь знать.
.... 
и т.д.

Answer 2 · 2016-12-23 11:25:06

NaName @NaName

ch1 = u'Б'
ch2 = u'б'
if ch1.istitle():
    print ("Верхний")
else:
    print ("Нижний")

так пробовали?

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2016-12-23 05:41:21

i = 0
while i < len(sentences) - 1:
    if ord(sentences[i + 1])>1039 and ord(sentences[i + 1])<1071:
      print (sentences[i + 1])
    i += 1

;) метод топором =)

p.s. Только не забудьте , у вас ещё присутствуют предложения такие: бла бла. "Ой..."

Answer 4 · 2016-12-24 05:33:54

Казалось бы легко -

Это только кажется, и дело тут не в том, как определить строчную или прописную букву. Дело в алгоритме. Это задача относится к написанию лексического анализатора, а пишутся они через конечные автоматы.
wiki. конечный автомат (пример)

Как разбить текст на предложения, не используя регулярные выражения?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт