Спасибо, ну вот к примеру если искать время и дату, тут вроде как и регулярки подойдут, но я так думаю что лучше все равно сделать несколько вариантов, а потом замерить F-Measure и сравнит точность.
2yourmary, уау спасибо за такую ссылку.
2Cybersoph, это просто мое косноязычие) А так я имел ввиду токены, которые можно определить как какой-либо тип данных. Т.е. как в гугле если вбить 200 pounds то он тебе скажет сколько это в килограммах.
Да вчера ночью начитался, да это NER. И есть несколько подходов, использовать классификатор(к примеру Наивный байесовский классификатор) или использовать регулярные выражения. Осталось только понять, что использовать лучше. И как классифицировать. Я вижу только как натаскивать классификатор по отдельным токенам и связкам токенов. Сложная конечно тема для меня, но интересная)