Есть архив из множества файлов и папок, где есть, как фото, текст и другие текстовые файлы. Как наиболее эффективно искать по этим файлам информацию? Как хранить эти данные?
Зависит от того, как среди всего этого надо искать.
На таких масштабах, в принципе, можно всё на одной жирной машине индекс расположить. (На сотню тб вполне можно)
Есть различное ПО для индексации текстовой и другой информации на базе полно-текстовых движков.
Для настольного варианта есть DocFetcher (с отдельной pro версией). Кажется, есть и серверный вариант.
Если хочется готовить самостоятельно, тогда можно взять Apache Solr, Apache Tika.