Капитан Пронин, Пожалуйста, читайте внимательно: надо в том числе выделить отдельные предложения, которые разбить на абзацы. Это к грамматическим ошибкам не имеет ничего общего.
А кто сказал, что для этого нужно использовать именно word2vec (у которых при учете всех опечаток получатся большие вектора)? У нейронок большое количество архитектур с очень большим количеством параметров (сейчас уже под 100 млрд.), которые позволяют выполнять достаточно произвольные действия с текстом (например, отвечать на вопросы, заканчивать предложения, заменять аналогичным по смыслу предложением....).
Смысл улавливать никто и не просит, главное в нужном месте расставить знаки препинания и разделить смысловые единицы (например, по отличию результирующего вектора всего абзаца от следующего предожения). Т.е. чтобы понять, что смысл другой не нужно его понимать, главное уловить отличие.
Не вижу проблем для сегодняшних нейронок.
Написано
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.