нужно регуляркой найти все слова в тексте.
к примеру:
words = re.findall(r'[a-zA-Zа-яА-Я]+', text)
проблема заключается в том, что в text находятся строка из бд, которая содержит кирилицу.
Вот такой алгоритм выше не работает, пробовал разные варианты, иногда в words появляется что-то типа [u\....
Забыл про версии: питон 2.7, кодировка в базе utf8_general_ci