Степан: ну и что главное в ваших мультиязыках? текст? ну и фильтруйте только буквенные символы, плюс самый минимум знаков для них - точки, запятые и тп.
В кодировках есть промежутки, отведённые на буквы, а есть промежутки для спецсимволов - исходя из этого, можно сделать фильтр и просто вырезать спецсимволы
Вот таблица юникода: тыц