Посмотри
1.
https://data.gov.ru/ - там много разных данных кодируют в виде огромных xml-ек
2. ФИАС и ГАР. XML в сжатом виде занимает 36гб. Дельта в сжатом виде 36мб
https://fias.nalog.ru/
3. Возьми любой docx или xslx и разпрхивируй - внутри будет content.xml
PS: реальный не всегда значит большой