Есть нейронка, которая корректирует текст после транскрибации аудио?

Question

SemenPPP @SemenPPP

Есть нейронка, которая корректирует текст после транскрибации аудио?

Сейчас есть ряд инструментов транскрибации аудио- файлов, после которых на выходе получается "мешок слов": текст не содержит знаков препинаний + нет деления на абзацы (смысловые единицы) + содержит грамматические ошибки.

Логично предположить, что раз нейронки уже умеют генерить текст на заданную тему с нуля, то они вполне могут откорректировать подобную словарную кашу в удобочитаемый текст, задав форму с помощью знаков препинания и абзацев + самостоятельно исправить большую часть ошибок. Ведь в подобных текстах значительно больше исходной информации, чем просто заданная тема, поэтому и сделать это нейронке будет проще.

Кстати, тоже самое относится к распознаванию pdf- файлов / картинок: после этого процесса также нужно вручную исправлять ошибки OCR, чего хотелось бы избежать. В подобном тексте присутсвуют как синтаксические ошибки (отсутствующие либо лишние знаки припинания), так и грамматические ошибки.

Есть такие обученные нейронные сети?

Вопрос задан более двух лет назад
383 просмотра

11 комментариев

Подписаться 2 Средний 11 комментариев

Модератор @TosterModerator

Не надо ставить как можно больше тэгов. Лучше оставить один, но конкретный, с которым проблема.
См.п.3.1 Регламента.

Написано более двух лет назад
d'Ivan @2ord

Зачем нейронка для исправления орфографических ошибок? Разве мало открытых проектов для работы с разными языками?

Написано более двух лет назад
freeExec @freeExec

Для русского наверняка нету

Написано более двух лет назад
mayton2019 @mayton2019

Я-бы подумал сначала в направлении улучшения процесса транскрибции. Там есть паузы и интонация. И их можно использовать как дополнительную информацию. Чтобы не генерировать мешок слов - надо генерировать мешок плюс некие дополнительные символы которые помогут в разметке.

Если на вход идет только мешок - то мы получаем забавные загадки наподобие

"На поле он траву косил" или "Наполеон траву косил..."

По поводу орфографии. Это уже лет 20 как решенный вопрос. Есть всякие Стилусы и Промпты. Покупайте у них библиотеки словари или сервис-API.

Написано более двух лет назад
SemenPPP @SemenPPP Автор вопроса

Капитан Пронин, Пожалуйста, читайте внимательно: надо в том числе выделить отдельные предложения, которые разбить на абзацы. Это к грамматическим ошибкам не имеет ничего общего.

Написано более двух лет назад
SemenPPP @SemenPPP Автор вопроса

mayton2019, надо исходить из того что есть. Сейчас именно такие по качеству методики транскрибации и надо исходить из этого.

Написано более двух лет назад
mayton2019 @mayton2019

SemenPPP, покажи фрагмент что там в этом мешке.

Написано более двух лет назад
d'Ivan @2ord

SemenPPP, я ответил по поводу исправления ошибок. Насчёт расстановки запятых и точек - даже сложнее. Хотя, возможно, такая задача уже решена.

Написано более двух лет назад
SemenPPP @SemenPPP Автор вопроса

mayton2019, ты не можешь представить текст без запятых, точек, двоеточий, тире и абзацев?

Написано более двух лет назад
mayton2019 @mayton2019

SemenPPP, фантазия у меня богатая. Но я хотел еще увидеть предметную область. И прочие признаки. Которые могут сделать задачу узко-специализированной. Пока-же у тебя идет такая себе сверх-задача. И ты заставляешь нас, участников qna искать сверх-решения.

Написано более двух лет назад
shurshur @shurshur

SemenPPP, человек легко делит одно предложение на части либо тараторит предложения вплотную. Использовать особенности речи очень сложно. Либо это будут грязные хаки, либо это должна быть нейросеть, обученная на весьма объёмных аудиофрагментах, что довольно сложно и сомнительно.

Правильно говорят, что тут может быть перспективнее смотреть в сторону алгоритмов и методов NLP (Natural Language Processing, не путать с лженаучным "нейролингвистическим программированием").

Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 1

3 комментария

SemenPPP @SemenPPP Автор вопроса

А кто сказал, что для этого нужно использовать именно word2vec (у которых при учете всех опечаток получатся большие вектора)? У нейронок большое количество архитектур с очень большим количеством параметров (сейчас уже под 100 млрд.), которые позволяют выполнять достаточно произвольные действия с текстом (например, отвечать на вопросы, заканчивать предложения, заменять аналогичным по смыслу предложением....).

Смысл улавливать никто и не просит, главное в нужном месте расставить знаки препинания и разделить смысловые единицы (например, по отличию результирующего вектора всего абзаца от следующего предожения). Т.е. чтобы понять, что смысл другой не нужно его понимать, главное уловить отличие.

Не вижу проблем для сегодняшних нейронок.

Написано более двух лет назад
d'Ivan @2ord

SemenPPP,

Не вижу проблем для сегодняшних нейронок.

Вычислительные возможности - лишь верхушка айсберга в решении проблемы.
Если же готов оплатить проект специалистам по компьютерной лингвистике/NLP такого уровня, как Илья Козиев, то всегда пожалуйста.

Написано более двух лет назад
Dimonchik @dimonchik2013

SemenPPP, )) вы услышали "вектор" и сразу word2vec ? ха-ха ))))))))))))))))) сорри, не хотел обидеть

вектор тут в понятиях линейной алгебры, вот те вот параметры - это все наборы векторов
и их косинусная близость

ничего нового

просто нереально обсчитать все еще, квантовых компутеров нету, только хайп и отмыв акций

потому делаются упрощения и ХОПА -типа получилось. новый энкодер, ага

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Анимация

+1 ещё

Простой
Существет ли AI делающая промежуточную анимацию между 2 кадрами?
- 1 подписчик
- 09 авг.
- 81 просмотр
1

ответ
Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 08 авг.
- 80 просмотров
1

ответ
Автоматизация обработки текста

Простой
Существует ли инструмент (система) автоматизации форматирования текста в docx по предопределенным правилам?
- 2 подписчика
- 05 авг.
- 162 просмотра
2

ответа
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 150 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 267 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 41 просмотр
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 55 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 65 просмотров
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 63 просмотра
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 224 просмотра
3

ответа
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Сетевой инженер

МТС • Владивосток

от 100 000 ₽

Не надо ставить как можно больше тэгов. Лучше оставить один, но конкретный, с которым проблема.
См.п.3.1 Регламента.
Зачем нейронка для исправления орфографических ошибок? Разве мало открытых проектов для работы с разными языками?
Я-бы подумал сначала в направлении улучшения процесса транскрибции. Там есть паузы и интонация. И их можно использовать как дополнительную информацию. Чтобы не генерировать мешок слов - надо генерировать мешок плюс некие дополнительные символы которые помогут в разметке.

Если на вход идет только мешок - то мы получаем забавные загадки наподобие

"На поле он траву косил" или "Наполеон траву косил..."

По поводу орфографии. Это уже лет 20 как решенный вопрос. Есть всякие Стилусы и Промпты. Покупайте у них библиотеки словари или сервис-API.
Капитан Пронин, Пожалуйста, читайте внимательно: надо в том числе выделить отдельные предложения, которые разбить на абзацы. Это к грамматическим ошибкам не имеет ничего общего.
mayton2019, надо исходить из того что есть. Сейчас именно такие по качеству методики транскрибации и надо исходить из этого.
SemenPPP, покажи фрагмент что там в этом мешке.
SemenPPP, я ответил по поводу исправления ошибок. Насчёт расстановки запятых и точек - даже сложнее. Хотя, возможно, такая задача уже решена.
mayton2019, ты не можешь представить текст без запятых, точек, двоеточий, тире и абзацев?
SemenPPP, фантазия у меня богатая. Но я хотел еще увидеть предметную область. И прочие признаки. Которые могут сделать задачу узко-специализированной. Пока-же у тебя идет такая себе сверх-задача. И ты заставляешь нас, участников qna искать сверх-решения.
SemenPPP, человек легко делит одно предложение на части либо тараторит предложения вплотную. Использовать особенности речи очень сложно. Либо это будут грязные хаки, либо это должна быть нейросеть, обученная на весьма объёмных аудиофрагментах, что довольно сложно и сомнительно.

Правильно говорят, что тут может быть перспективнее смотреть в сторону алгоритмов и методов NLP (Natural Language Processing, не путать с лженаучным "нейролингвистическим программированием").

Answer 1 · 2023-03-04 14:16:03

таких нейронок нет и будут не скоро - вектора миллиардные
скорее уж классическими NLP методами, на MS Word можешь посмотреть чего Микрософт достиг
уже не мультик анальный, но и... да собственно мало что и, лет за 20 достижений пшик

все что могут нейронки сегодня - это переводы, т.е. вероятносные сопоставления одних векторов другим

все

увелчились мощности - стали лучше переводить с английского на английский (GPT, ага) но понимать смысл по-прежнему никак ибо надо еще порядка на 2 увеличить

Есть нейронка, которая корректирует текст после транскрибации аудио?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт