Как проверить орфографию и пунктуацию текста в Python?

Question

FeeFort @FeeFort

Python

Как проверить орфографию и пунктуацию текста в Python?

Приветствую.
Для дипломной работы делаю своего голосового ассистента. Для распознавания речи использую Vosk.
Все работает, но Vosk выдает текст без орфографии и пунктуации (привет как дела). И мне необходимо исправлять текст, чтобы при выводе диалога с ассистентом, все выглядело красиво.

Описываю все способы и методы, что я опробовал:

Silero - т.к. я использую её для синтеза голоса, попробовал и корректировку ошибок, но она не очень хорошо работает (выдает: "Привет как дела!").
Яндекс Спеллер - нету исправления пунктуации.
Textovod - с виду есть все, что мне надо, но api не работает, хотя он есть.
Вот эта нейросеть - пожалуй, лучший вариант, но из-за её веса и кучи файлов вставлять её не хочется.

И много других сервисов, которые не поддерживали кириллицу. Даже пытался выкручиваться, переводя текст на английский (использовал google переводчик), исправляя его и обратно переводил на русский. Но иногда получались абсурдные ответы.
джон открой браузер -> Джон Открытый браузер
Также, есть вариант использовать Яндекс Переводчик, т.к. там автоматически исправляются все ошибки. Он платный, хоть и дешевый, я пока хочу рассматривать бесплатные варианты.

Как вы поняли я так и не нашел ничего. Может, кто знает другие сервисы или API для исправления орфографии и пунктуации в тексте?

Вопрос задан более двух лет назад
2807 просмотров

Комментировать

Подписаться 4 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Средний
Какие есть удобные API для генерации картинок через AI?
- 1 подписчик
- 6 часов назад
- 36 просмотров
0

ответов
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- вчера
- 190 просмотров
1

ответ
Python

+1 ещё

Простой
Pycharm для старенького мака??
- 1 подписчик
- 18 окт.
- 180 просмотров
3

ответа
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 131 просмотр
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 521 просмотр
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 110 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 534 просмотра
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 144 просмотра
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 125 просмотров
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Answer 1 · 2023-03-13 10:52:09

пунктуацию никак

в общем случае задача не решается,
а в частном - вот такие монструозные нейронки как Вы и сами нашли, их обучать-переобучать, и все равно не будет 100% попадания

Answer 2 · 2023-03-13 12:36:14

Николай Савельев @AgentSmith

Это мой правильный ответ на твой вопрос

Задача исправления пунктуации до сих пор не решена, как и задача орфографии.

Ответ написан более двух лет назад

1 комментарий

Answer 3 · 2023-03-13 15:01:36

import fitz
import nltk
import string
import pymorphy2

# загружаем словари и правила для pymorphy2
morph = pymorphy2.MorphAnalyzer()

# загружаем русский язык для NLTK
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('tagsets')
nltk.download('words')
nltk.download('maxent_ne_chunker')
nltk.download('stopwords')

# извлекаем текст из PDF-файла
with fitz.open('example.pdf') as doc:
    text = ""
    for page in doc:
        text += page.getText()

# токенизируем текст и удаляем пунктуацию
tokens = nltk.word_tokenize(text)
tokens = [word for word in tokens if word.isalnum()]

# исправляем орфографические ошибки
corrected_tokens = []
for token in tokens:
    parsed_token = morph.parse(token)[0]
    if 'LATIN' in parsed_token.tag or 'PNCT' in parsed_token.tag:
        corrected_tokens.append(token)
    else:
        corrected_tokens.append(parsed_token.normal_form)

# восстанавливаем пунктуацию
final_text = ""
for i, token in enumerate(corrected_tokens):
    final_text += token
    if i < len(corrected_tokens) - 1 and corrected_tokens[i+1] not in string.punctuation:
        final_text += " "
    elif i < len(corrected_tokens) - 1 and corrected_tokens[i+1] in string.punctuation:
        final_text += corrected_tokens[i+1]

print(final_text)

Answer 4 · 2024-07-02 16:46:19

Как-то решили эту проблему? Больше интересует момент с орфографией, я пытаюсь использовать YandexSpeller(), но он очень медленный для больших текстов

Как проверить орфографию и пунктуацию текста в Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт