@RockyMotion

Как правильно подать строки для лемматизации?

Провел токеннизацию большого текста, теперь пытаюсь подать эти строки на проведение лемматизации. Лемматизацию провожу с помощью pymorphy2, библиотека принимает только слово. Не могу понять как подать предложение по слову, но так чтобы он сохранил мне все в dataframe так же по предложениям.

data_clear = pd.read_csv('C:\\Users\\ugrobug\\Desktop\\out_token.csv', sep='\t', encoding='utf-8')

def lemma(data_clear):
    morph = pymorphy2.MorphAnalyzer()
    final_data = pd.DataFrame({'Question'})

    for i in data_clear['0']:
        c = morph.parse(i)[0]
        lemmas = c.normal_form
        print(lemmas)
    final_data.loc[len(final_data)]=[lemmas]

    final_data.to_csv('C:\\Users\\ugrobug\\Desktop\\out_lemma.csv', sep='\t', encoding='utf-8')

lemma(data_clear)
  • Вопрос задан
  • 232 просмотра
Пригласить эксперта
Ответы на вопрос 1
@SideWest
Python.Новичок
Кто-то что нибудь понял?
Я нет!

Покажи что именно в data clear

Потом что значит data_clear['0']

Готов спорить что тебе надо либо data_clear[0]
Либо вообще просто data_clear

Хмми
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы