Парсить 10 МИЛЛИАРДОВ страниц в реальном времени и на Яве? Не смешите мои тапочки!
Вам нужно проиндексировать тэги(или классы, что вы там будете искать) всех страниц (в офлайне, на любом языке), а уже потом искать в этих таблицах. Т.е. искать будете не по самим HTML, а по базе данных тэгов(классов). С линейным поиском в 10 миллиардах страниц не справится даже ассемблер. Если конечно пользователь не готов подождать пару часов до получения результата.