Есть нейронка, которая корректирует текст после транскрибации аудио?
Сейчас есть ряд инструментов транскрибации аудио- файлов, после которых на выходе получается "мешок слов": текст не содержит знаков препинаний + нет деления на абзацы (смысловые единицы) + содержит грамматические ошибки.
Логично предположить, что раз нейронки уже умеют генерить текст на заданную тему с нуля, то они вполне могут откорректировать подобную словарную кашу в удобочитаемый текст, задав форму с помощью знаков препинания и абзацев + самостоятельно исправить большую часть ошибок. Ведь в подобных текстах значительно больше исходной информации, чем просто заданная тема, поэтому и сделать это нейронке будет проще.
Кстати, тоже самое относится к распознаванию pdf- файлов / картинок: после этого процесса также нужно вручную исправлять ошибки OCR, чего хотелось бы избежать. В подобном тексте присутсвуют как синтаксические ошибки (отсутствующие либо лишние знаки припинания), так и грамматические ошибки.
Я-бы подумал сначала в направлении улучшения процесса транскрибции. Там есть паузы и интонация. И их можно использовать как дополнительную информацию. Чтобы не генерировать мешок слов - надо генерировать мешок плюс некие дополнительные символы которые помогут в разметке.
Если на вход идет только мешок - то мы получаем забавные загадки наподобие
"На поле он траву косил" или "Наполеон траву косил..."
По поводу орфографии. Это уже лет 20 как решенный вопрос. Есть всякие Стилусы и Промпты. Покупайте у них библиотеки словари или сервис-API.
Капитан Пронин, Пожалуйста, читайте внимательно: надо в том числе выделить отдельные предложения, которые разбить на абзацы. Это к грамматическим ошибкам не имеет ничего общего.
SemenPPP, фантазия у меня богатая. Но я хотел еще увидеть предметную область. И прочие признаки. Которые могут сделать задачу узко-специализированной. Пока-же у тебя идет такая себе сверх-задача. И ты заставляешь нас, участников qna искать сверх-решения.
SemenPPP, человек легко делит одно предложение на части либо тараторит предложения вплотную. Использовать особенности речи очень сложно. Либо это будут грязные хаки, либо это должна быть нейросеть, обученная на весьма объёмных аудиофрагментах, что довольно сложно и сомнительно.
Правильно говорят, что тут может быть перспективнее смотреть в сторону алгоритмов и методов NLP (Natural Language Processing, не путать с лженаучным "нейролингвистическим программированием").
таких нейронок нет и будут не скоро - вектора миллиардные
скорее уж классическими NLP методами, на MS Word можешь посмотреть чего Микрософт достиг
уже не мультик анальный, но и... да собственно мало что и, лет за 20 достижений пшик
все что могут нейронки сегодня - это переводы, т.е. вероятносные сопоставления одних векторов другим
все
увелчились мощности - стали лучше переводить с английского на английский (GPT, ага) но понимать смысл по-прежнему никак ибо надо еще порядка на 2 увеличить
А кто сказал, что для этого нужно использовать именно word2vec (у которых при учете всех опечаток получатся большие вектора)? У нейронок большое количество архитектур с очень большим количеством параметров (сейчас уже под 100 млрд.), которые позволяют выполнять достаточно произвольные действия с текстом (например, отвечать на вопросы, заканчивать предложения, заменять аналогичным по смыслу предложением....).
Смысл улавливать никто и не просит, главное в нужном месте расставить знаки препинания и разделить смысловые единицы (например, по отличию результирующего вектора всего абзаца от следующего предожения). Т.е. чтобы понять, что смысл другой не нужно его понимать, главное уловить отличие.
Вычислительные возможности - лишь верхушка айсберга в решении проблемы.
Если же готов оплатить проект специалистам по компьютерной лингвистике/NLP такого уровня, как Илья Козиев, то всегда пожалуйста.