Не знаю почему вы сами не стали искать информацию, её просто море.
Но всё же, краткая выжимка такая:
По поводу текста. Да, слова кодируют, но не обычным числом, а вектором большой размерности, например двенадцати-мерное пространство, вообразить практически не возможно. Созданием такого вектора занимается тоже нейронка. Впрочем такие векторы уже давно созданы и их можно скачать. Есть даже для русского языка. Их главная фишка в том, что если из вектора "женщина" вычесть вектор "мужчина" и прибавить эту дельту к вектору "король" мы получим вектор "королева".
Второе, для обработки текста используют нейронные сети в "памятью". Т.е. на вход подаётся очередное слово из предложения с неким состоянием от предыдущего прохода.
Про изображения - никто не запихивает 4К фотку в сетку. Либо нарезают изображение на маленькие кусочки, либо сжимают. Напомню что первые соревнования по классификации изображений cifar-10 были на картинках 16х16 пикселей. На вход сети VGG, например, подают изображения 224х224 пикселя.