Лучше использовать классификатор. Регулярками — только если что-то очень простое с устоявшимся паттерном (номера телефонов). По алгоритмам, лучше CRF. Наивный байес тоже подойдет. Главное, хороший корпус для тренировки.
А, да, еще можете сюда глянуть —
www.freebase.com/. Гугловый проект, там народ вручную вбивает.
И да, не бросайтесь терминами «смысл». Народ, кто занимается с нлп этого не очень любит :).