Примерный план действий:
- Определяете среднюю длину слова в наборе
- Токенизируете каждое слово
- Удаляете "лишние" у очень длинных слов или "добавляете" недостающие знаки у коротких слов
Таким образом можно решить размерности входных данных. Пример для наглядности:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
X = np.array(['диверсификация', 'приз', 'калейдоскоп'])
tokenizer = Tokenizer(char_level=True)
tokenizer.fit_on_texts(X)
X_tokenized = tokenizer.texts_to_sequences(X)
print(X_tokenized)
X_padded = pad_sequences(X_tokenized, maxlen=len(X_tokenized[2]), padding='post', truncating='post')
print(X_padded)