Есть сплошной поток текста, полученный на выходе системы распознавания речи.
Нужно этот сплошной поток текста автоматически преобразовать в более-менее читаемый вид - с правильной пунктуацией и разделением на предложения, абзацы. Для простоты пока положим, что это нужно только для русского или английского языка.
Какие существуют алгоритмы, подходы, библиотеки, наработки, литература, где подобная задача или её части уже решены?
в таком виде задачка скорее всего решается нейросетями после долгого обучения
но имхо грубо разметить если есть сопоставление звука и текста можно по паузам
открытых не знаю, а закрытые есть у всех создателей голосовых помощников
типа сири кортаны и прочих ок гуглов.
впрочем тема нейросетей в интернете освещена довольно подробно
а архивы библиотек типа флибусты обеспечат огромным массивом для обучения
Спасибо за идею! Да, обучить на флибусте (да и любом тексте, на самом деле) - это может сработать. Сначала учим на достаточно большом наборе "обфусцированный текст" => исходный текст, а потом по "обфусцированному" тексту обученный ИИ будет восстанавливать пунктуацию. Пожалуй, тут даже лучше не флибуста подойдёт, а расшифровки стенограмм, где речь менее литературно обработана.
Какие курсы/материалы по машинному обучению вы могли бы посоветовать для новичка со слабым математическим аппаратом, но большим опытом в разработке ПО?
yokotoka, всё же я бы не стал уповать на магию нейросетей, а предложил бы углубиться в лингвистику. Потому как нейросети - это один из способов классификации. Полностью всё за человека сделать не смогут (без учителя).
Написано
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.