luaPower, если брать слово, следующее за тем словом, которое содержит случайно выбранный символ/байт, то вероятность получить короткое слово станет выше вероятности получения длинного слова. Видимо об этом дефекте говорил mayton2019.
aleks-th, хранить длину каждого слова крайне затратно. Проще создать штук 100 индексов, которые будут указывать на некоторые слова по всему файлу, т.е. будут хранить позицию (смещение) слова, а не размер.