Я сейчас работаю над похожей системой (ссылку на которую привел автор). Определяются некоторые категории сущностей (ФИО, названия организаций, марки машин, номера телефонов и куча всего прочего) для них пишутся правила (как их выделять в тексте). По выделенным сущностям строится семантическая сеть. Для выделения отношений между сущностями тоже пишутся правила. Ну и собственно полученная сеть (или граф) красиво визуализируется, если нужно укладывается в базу. К сожалению более подробно я рассказывать не могу, но область применения очень широкая. Особенно хороший результат получается, если есть огромная кипа довольно похожих документов, различного рода оперативных справок (правил выделения писать для них меньше).
Если как-нибудь время найду и начальство не будет сильно против, обязательно напишу тут статью, думаю народу будет интересно.