токенизация - разбиение текста на слова ( и не-слова, те знаки препинания, границы абзацев и т.п). Полезность её в машинном обучении - прямое донесение до сетки факта, что человек (чьим действиям её надо научить подражать) воспринимает текст как поток слов, а не поток букв.