1. В словаре обычно не все слова. Словоформ нету. Поэтому может получиться не совсем то что надо.
2. Не нужно знать точное количество. Достаточно просто знать соотношение. Для этого можно для каждого языка взять не очень большое количество документов (например из Википедии) и посчитать распределение в этих документах.
3. На самом деле можно этого всего избежать, если разделять не по первой букве, а посчитать хеш от слова и взять остаток от деления на желаемое число таблиц.