Для решения этой проблемы есть фундаментальное препятствие.
Для разработки подобного софта нужен общедоступный корпус языка (набор размеченных текстовых данных), создание которого - задача для лингвистов. Далее, этот набор данных должен быть интегрирован в достаточно специфическое ПО. А еще он должен быть доступен для разработчиков.
В случае русского языка, случилось закономерное: государственные институты занялись этой проблемой, но программную часть стал делать Яндекс. Это их традиционная манера - подмять под себя данные, которые созданы на деньги налогоплательщиков, превратив это либо в закрытый, либо в коммерческий продукт. Например, так происходит с данными о пробках, которые собираются гос. организациями, с данными о местоположении общественного транспорта и т.п. Результат - национальный корпус русского языка - закрытый проект с чертами коммерческого.
Потому такая штука как открытый корпус русского языка делается параллельно на добровольной основе
www.opencorpora.org
Этого набора данных пока недостаточно для разработки того, о чем вы мечтаете.