1) Почистить данные (убрать стоп-слова, спецсимволы, привести в нормальную форму и т.п.)
2) Векторизовать данные (bag of words, tf-idf, n-grams... )
3) Разделить выборку на train/test.
4) Собственно, обучить классификатор (не начинайте с нейросетей, начните с чего-то более простого типа random forest).
5) Сделать кросс-валидацию, ужаснуться от результата, начать чинить проблемы на каждом шаге.
Очень базовый туториал
scikit-learn.org/stable/tutorial/text_analytics/wo... Гораздо менее базово -
nlp.stanford.edu/IR-book/.