Судя по описанию, это классическая задача классификации, и совершенно не обязательно использовать нейронные сети -- они вовсе не всегда полезны, см. например вот здесь.
То есть возможно имеет смысл копать в сторону классического ML для текста.
Добавлю, там же на курсере есть пачка курсов по анализу данных: https://www.coursera.org/jhu
Сам так начал программировать на R, еще можно взглянуть на udacity -- они очень не плохи, там же есть курс на pandas -- этакая смесь python и R.
В качестве практики можно начать писать статьи на хабр по этой теме. Все данные стараюсь собрать в одном и том же месте для всеобщего пользования: https://github.com/SergeyParamonov/HabraData