Работающие системы дают результат где-то между 75 и 96%% правильных определений.
Но это задача - вычленение данных из неструктурированного текста написанного естественным языком.
Если есть хоть какая-то надежда на минимум структуры, то задача упрощается до табличного парсинга, и верных ответов будет от 85 до 98%.
Тогда ответ, к сожалению, неутешителен и лежит в указанной области - Извлечение Именованных Сущностей, или Named Entity Recognition.
Создать полноценное универсальное решение возможно, но не слишком просто. Изучить тему можно на доступных опенсорсных примерах: это OpenNLP и Stanford CoreNLP/NER.
Написано
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.