Как распознавать абзацы в тексте?

Question

pcdesign @pcdesign

Как распознавать абзацы в тексте?

Определение слова абзац:

Абзац (раздел, часть текста) — отрезок письменной речи, состоящий из одного или нескольких предложений.
Абзац служит для группировки однородных единиц изложения, исчерпывая один из его моментов (тематический, сюжетный и т. д.).

Цель: скормить текст программе без абзацев и получить на выходе текст разбитый на абзацы.

Вопрос задан более трёх лет назад
1712 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Data Scientist с нуля

10 месяцев

Далее
Академия Эдюсон

Machine Learning: тариф Базовый

7 месяцев

Далее
karpov.courses

Инженер машинного обучения

7 месяцев

Далее

Решения вопроса 2

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Карьера в IT

+1 ещё

Простой
Стоит ли беспокоится, если иду в NLP, но я плох на числовых табличных данных?
- 1 подписчик
- 11 мая
- 306 просмотров
1

ответ
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 283 просмотра
1

ответ
Машинное обучение

Простой
Необходимо разработать модель классификации, поможете с выбором парадигмы решения задачи?
- 2 подписчика
- 22 янв.
- 136 просмотров
0

ответов
Машинное обучение

+1 ещё

Средний
Может, у кого-то есть дампы с реальными наименованиями товаров/услуг и кодами ОКПД2 для обучения NLP-модели?
- 1 подписчик
- 16 янв.
- 122 просмотра
0

ответов
Машинное обучение

Простой
Можно ли получить сразу полный список чего-либо от LLM по определённому критерию?
- 1 подписчик
- 28 дек. 2025
- 119 просмотров
1

ответ
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек. 2025
- 314 просмотров
1

ответ
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент. 2025
- 182 просмотра
0

ответов
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент. 2025
- 204 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
С помощью чего проанализировать данные и построить свою нейронную сеть для бана пользователей?
- 1 подписчик
- 09 сент. 2025
- 199 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Как повысить macro f1 в задаче классификации изображения?
- 1 подписчик
- 03 сент. 2025
- 66 просмотров
0

ответов
Показать ещё Загружается…

Answer 1 · 2017-10-31 13:00:04

С хорошей точностью - никак.
Но если какой-то процент ошибок допустим, то можно попробовать взять достаточно большой корпус текстов уже разбитых на абзацы, вычленять в нём отдельные предложения и считать для этих предложений какие-то метрики. Например, количество слов, количество знаков препинания, отношения числа знаков препинания к число слов, средняя длинна слова, результирующий вектор в пространстве слов, ну и ещё хотя бы несколько десятков подобных метрик придумать.

А дальше всё стандартно - есть набор входных параметров, есть результат (является ли предложение первым предложением абзаца, и является ли оно последним). На выходе у вас будет модель, которая для каждого предложения определяет вероятность того, что оно является "головой" абзаца и вероятность того, что это предложение является "хвостом".

А дальше вы просто ставите абзац после тех предложений с высокой вероятность "хвоста", за которым идёт предложение с высокой вероятностью "головы".

Answer 2 · 2017-10-31 14:24:16

Когда нам надо было выделить абзацы, определили два понятия: "длинные строки" и "короткие строки". Длинные строки, например, дает простой текстовый экспорт из Ворда. Там каждый абзац просто заврешается переводом строки. А вот текст из коротких строк имеет размер строки не более, например, 72 символов, а абзац отмечается несколькими дополнительными отступами в начале первой строки, иногда двойным переводом строки, иногда и тем, и тем.

Если тексты из одного источника, то надо просто настроить алгоритм на конкретный вид абзацев. Если неизвестно - надо анализировать длины строк в тексте и отступы.

Как распознавать абзацы в тексте?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт