Как исправить текст с разорванными предложениями?

Question

theurus @theurus

Python

Как исправить текст с разорванными предложениями?

Есть телеграм бот который распознает текст с картинок.

#my_ocr.py
import io
import fitz
import pytesseract
from PIL import Image


#распознаем  текст с картинки из байтовой строки
def get_text_from_image(b):
    language = 'rus+eng+ukr'
    f = io.BytesIO(b)
    return pytesseract.image_to_string(Image.open(f), lang=language)

#tb.py
from aiogram import Bot, Dispatcher, types, executor
import cfg
import io
import my_ocr


bot = Bot(token=cfg.token)
dp = Dispatcher(bot)


@dp.message_handler(content_types=types.ContentType.PHOTO)
async def handle_photo(message: types.Message):
    # получаем самую большую фотографию из списка
    photo = message.photo[-1]
    fp = io.BytesIO()
    # скачиваем фотографию в байтовый поток
    await photo.download(destination_file=fp)
    # распознаем текст на фотографии с помощью pytesseract
    text = my_ocr.get_text_from_image(fp.read())
    # отправляем распознанный текст пользователю
    if text.strip() != '':
        # если текст слишком длинный, отправляем его в виде текстового файла
        if len(text) > 4096:
            with io.StringIO(text) as f:
                f.name = 'text.txt'
                await message.reply_document(f)
        else:
            await message.reply(text)

if __name__ == '__main__':
    executor.start_polling(dp)

Распознанный текст выглядит не совсем так как надо, предложения разорваны.

Например картинка

Текст

Женщина:

— Обветрились губы. Воспользовалась
скрабом для губ, сделала питательную
маску, намазала бальзамом, сверху -
увлажняющий блеск.

Мужчина:

— Обветрились губы. Отодрал кожу.
Сьел.

а должно быть как то так

Женщина:

— Обветрились губы. Воспользовалась скрабом для губ, сделала питательную маску, намазала бальзамом, сверху -
увлажняющий блеск.

Мужчина:

— Обветрились губы. Отодрал кожу. Сьел.

Можно конечно просто склеивать строки пробелами пока не наткнешься на пустую строку но может есть какие то специализированные библиотеки для этого. Еще неплохо бы исправлять ошибки которые появляются от плохого распознавания.

Вопрос задан более трёх лет назад
75 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- вчера
- 73 просмотра
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 88 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 304 просмотра
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 234 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 649 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 550 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 307 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 566 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 228 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 140 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2023-05-18 18:34:18

Было бы здорово, если бы вы распечатали строку в виде байт и приложили.
Полагаю, что распознается текст вместе с символами переноса строки '\n'.
А вы хотите определенным образом их удалить у части текста.

Думаю, для вашей можно использовать следующую логику: идти по строке и удалять все символы переноса строки пока не встретите точку. или двоеточие (в вашем случае).

Как исправить текст с разорванными предложениями?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт