если размер данных сервер возвращает - то проблем нет для стороннего источника, если нет - вы считываете обрабатывая "налету" буффер загруженных данных, пока не дойдете до своего "куска" и как только он будет получен - сразу же прервете получение страницы.
Парсинг большого объема текстовой информации из интернета и её сегментация. (как раз то, чем и занимаются поисковые системы)
Если у Вас узкоспециализированный сервис - будет проще создать собственное дерево. (допустим, скоростной ввод текста с использованием системы предугадывания для мобильных систем)
а что мощнее из этих по скорости для описанной задачи: en.wikipedia.org/wiki/Graph_database ?