Как определить уровень покрытия текста со словарем (сравнение двух списков)?

Question

sega111sega @sega111sega

Python

Как определить уровень покрытия текста со словарем (сравнение двух списков)?

Добрый день!
Есть задача:
Необходимо определить уровень покрытия словаря (имеется csv файл) с текстом (любая статья).

import pandas
import pymorphy2
import re

excel_data_df = pandas.read_excel('Частотный словарь и семант ядро.xlsx', sheet_name='Лист1')

# print whole sheet data
lemma = (excel_data_df['lemma'].tolist())


low_lemma = [ name.lower() for name in lemma ]


morph = pymorphy2.MorphAnalyzer()


with open('text1.txt',  encoding='utf-8') as f:
    ls = [
        [morph.parse(word)[0].normal_form for word in re.findall(r'\w+', line)]
        for line in f
    ]

text = []
for i in ls:
    text += i

Сейчас на выходе я получаю два списка: словарь из scv и лемматизированный список из txt файла.
Мне нужно найти уникальные значения из текста, которые не входят в словарь.
Был близок к разгадке и использовал следующий код:

result=list(set(text) ^ set(lemma))

Но так не подходит. Т.к. в статье встречаются и другие слова, не входящие в словарь.
На выходе нужны только элементы списка с текстом, которых нет в словаре. Причем, что в словаре, что в тексте, могут быть одинаковые элементы. Вариант с множествами тоже не подошел. Подскажите, пожалуйста.

Вопрос задан более трёх лет назад
53 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 193 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 492 просмотра
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 475 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 274 просмотра
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 486 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 208 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 328 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 657 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 342 просмотра
1

ответ
Показать ещё Загружается…

Answer 1 · 2021-04-21 12:57:10

sega111sega @sega111sega Автор вопроса

Все же нашел ответ на свой вопрос:

import numpy as np

main_list = np.setdiff1d(text,dict, assume_unique=True)

Ответ написан более трёх лет назад

Комментировать

Как определить уровень покрытия текста со словарем (сравнение двух списков)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт