Sphinx/Manticore Search могут подойти и по экономичности и по объему данных.
Эластик скушает всю память и не подавится.
Добавлено
Есть и другие игроки.
Solr has been more oriented towards text search. Elasticsearch quickly carved out its niche, aiming for log analytics by creating the Elastic Stack
Apache Solr. SolrCloud - шардинг и репликация. Solr умеет анализировать (искать) различные документы.
Elasticsearch vs. Solr vs. Sphinx: Best Open Sourc...
Для извлечения текста и метаданных самостоятельно можно использовать фреймворк
Apache Tika.
Apache Hadoop - для хранения PDF.
Такой объем данных будет нелегко обработать. Будет много мороки с инфраструктурой и эксплуатацией ПО.