Провел токеннизацию большого текста, теперь пытаюсь подать эти строки на проведение лемматизации. Лемматизацию провожу с помощью pymorphy2, библиотека принимает только слово. Не могу понять как подать предложение по слову, но так чтобы он сохранил мне все в dataframe так же по предложениям.
data_clear = pd.read_csv('C:\\Users\\ugrobug\\Desktop\\out_token.csv', sep='\t', encoding='utf-8')
def lemma(data_clear):
morph = pymorphy2.MorphAnalyzer()
final_data = pd.DataFrame({'Question'})
for i in data_clear['0']:
c = morph.parse(i)[0]
lemmas = c.normal_form
print(lemmas)
final_data.loc[len(final_data)]=[lemmas]
final_data.to_csv('C:\\Users\\ugrobug\\Desktop\\out_lemma.csv', sep='\t', encoding='utf-8')
lemma(data_clear)