1) тип фала обычный txt
2) удалить надо потому что строить эмбеддинги по словам которые встречаются в тексте менее 3х раз бессмысленно
3) нормализация слов уже была произведена (на каждой строке файла уже хранятся нормированные слова)
4) слово должно встречаться 3 и более раз
5) если есть опечатки встречающиеся более 3х раз пусть живут, если менее то удалять