Просто для поиска неструктурированной текстовой информации можно взять готовое ПО, например,
DocFetcher.
Это такой поисковик с открытым исходным кодом для файлов на компьютере на основе Apache Lucene.
Если нужно что-то более специализированное, тогда берем в руки подходящий язык программирования (например, Java) и ищем подходящие библиотеки для работы с документами, например, Apache Tika. Ну а самая сложная часть - это анализ текста с целью извлечения характеристик, Information Extraction (IE).