А какой смысл вам переживать, получится или не получится? начните делать, хуже от этого никому не будет.
По поводу подводных камней, само собой если вы принимаете за фитчу (сигнал), в нейросети например 1 слово, то увеличивая количество слов вы усиливаете этот сигнал - тексты где больше слов будут выдавать большие значения сигналов, где меньше слов - меньшие значения, поэтому вам нужно использовать нормализацию этих сигналов, грубо говоря например делить размер сигнала на количества слов в тексте, для каждого текста (ну и так будет "честнее" сравнивать, тексты разного обьема).
По поводу падежей, родов - для этого используют стемминг, предварительную очистку текста от такой специфики (приведение текста в нейтральный вид). По поводу английский или русский - разницы никакой (только спемминг нужно под русский сделать), само обучение не имеет разницы.
Для обучения по текстам, можно даже компьютеры из 90х использовать, все будет работать.