VadimSoloviev
@VadimSoloviev
Человек из касты создателей

Существует ли на мировом рынке софт для быстрой, автоматической коррекции правописания текстовых файлов?

Ищу софт который позволит в считанные секунды выполнить коррекцию правописания спаршенного с форума текста на русском и английском языках.
Открыл текст, нажал 1 или 2 кнопочки для разных языков - получил готовый результат.
Ищу софт который действует по принципу не навреди и корректирует только те слова в опечатках которых он уверен с высокой долей вероятности и который не заставляет пользователя просматривать километровый текстовый файл предлагая ему вручную подтверждать коррекцию 1000 неверно написанных слов. В первую очередь он должен уметь автоматически корректировать орфографию и опечатки так как итоговый текст будет подвергнут речевому синтезу. И когда синтезатор речи читает текст с опечатками это прям очень критично. Волей неволей встаёт вопрос о том что бы уменьшить их количество настолько насколько это вообще возможно автоматическим способом.
  • Вопрос задан
  • 231 просмотр
Решения вопроса 2
gobananas
@gobananas
finishhim.ru
На английском есть www.grammarly на русском могу ошибаться, но ничего такого нет, все проверяльщики как минимум сленгом не владеют.
Думал для русского такое сделать как pet-project но пока всё упирается во время.
Ответ написан
Moskus
@Moskus
Для решения этой проблемы есть фундаментальное препятствие.
Для разработки подобного софта нужен общедоступный корпус языка (набор размеченных текстовых данных), создание которого - задача для лингвистов. Далее, этот набор данных должен быть интегрирован в достаточно специфическое ПО. А еще он должен быть доступен для разработчиков.

В случае русского языка, случилось закономерное: государственные институты занялись этой проблемой, но программную часть стал делать Яндекс. Это их традиционная манера - подмять под себя данные, которые созданы на деньги налогоплательщиков, превратив это либо в закрытый, либо в коммерческий продукт. Например, так происходит с данными о пробках, которые собираются гос. организациями, с данными о местоположении общественного транспорта и т.п. Результат - национальный корпус русского языка - закрытый проект с чертами коммерческого.

Потому такая штука как открытый корпус русского языка делается параллельно на добровольной основе www.opencorpora.org
Этого набора данных пока недостаточно для разработки того, о чем вы мечтаете.
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы