Как разобрать вложенный список с помощью sklearn?

Question

motcart @motcart

Python

Как разобрать вложенный список с помощью sklearn?

Подскажите как с помощью sklearn обработать такой датасет в виде списка:

tt = {
    'key1': ['value1', 'value2', 'value3'],
    'key2': ['value2', 'value4'],
     ...
}

Список формируется динамически, может быть разное количесвто ключей и значений.

Пользователь вводит строку
data = input()

Из списка надо выбрать ключ подходящий не менее чем на 60% сравнив ввод пользователя и каждый value.
Я смог сделать вывод для списка вида [ключ:значение], но не могу понять как это сделать когда в значении тоже список.

Вопрос задан более года назад
105 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Михаил Р. @Mike_Ro Куратор тега Python

Показывайте код, который написали, и что конкретно в нем не получилось?

Написано более года назад
motcart @motcart Автор вопроса
Михаил Р.,

tt = { 'key1': 'value1', 'key2': 'value2', } data = input() vectorizer = CountVectorizer() vectors = vectorizer.fit_transform(list(tt.values())) clf = LogisticRegression() clf.fit(vectors, list(tt.keys())) text_vector = vectorizer.transform([data]).toarray()[0] answer = clf.predict([text_vector])[0]

Вот так работает.
Только у меня датасет немного другой. И я не понимаю как расчитать вектор каждого значения.

tt = { 'key1': ['value1', 'value2', 'value3'], 'key2': ['value2', 'value4'], ... }

Датасет формирую не я. И не хотелось бы конвертировать его каждый раз в формат ключ:значение, занимая время. В датасете иногда до 3000 ключей, в каждом в среднем от 5 до 20 значений.
Написано более года назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 4 часа назад
- 32 просмотра
0

ответов
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 77 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 255 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 231 просмотр
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 639 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 548 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 305 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 559 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 226 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 140 просмотров
1

ответ
Показать ещё Загружается…

Показывайте код, который написали, и что конкретно в нем не получилось?
Михаил Р.,

tt = { 'key1': 'value1', 'key2': 'value2', } data = input() vectorizer = CountVectorizer() vectors = vectorizer.fit_transform(list(tt.values())) clf = LogisticRegression() clf.fit(vectors, list(tt.keys())) text_vector = vectorizer.transform([data]).toarray()[0] answer = clf.predict([text_vector])[0]

Вот так работает.
Только у меня датасет немного другой. И я не понимаю как расчитать вектор каждого значения.

tt = { 'key1': ['value1', 'value2', 'value3'], 'key2': ['value2', 'value4'], ... }

Датасет формирую не я. И не хотелось бы конвертировать его каждый раз в формат ключ:значение, занимая время. В датасете иногда до 3000 ключей, в каждом в среднем от 5 до 20 значений.

Answer 1 · 2024-12-12 14:27:13

Сам же и отвечу. Подсказали в тг чате по питону.

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

tt = {
    'key1': ['value1', 'value2', 'value3'],
    'key2': ['value2', 'value4'],
}

def compare_strings(user_input):
    vectorizer = TfidfVectorizer()
    all_values = [item for sublist in tt.values() for item in sublist]
    all_values.append(user_input) # Добавляем входную строку
    vectors = vectorizer.fit_transform(all_values)
    user_vector = vectors[-1] # Вектор входной строки

    results = []
    for key, values in tt.items():
        for value in values:
            value_vector = vectors[all_values.index(value)]
            similarity = cosine_similarity(user_vector, value_vector)[0][0]
            results.append({'key': key, 'value': value, 'similarity': similarity * 100})

    return results

user_input = input("Введите строку: ")
results = compare_strings(user_input)
for result in results:
    print(f"Ключ: {result['key']}, Значение: {result['value']}, Процент совпадения: {result['similarity']:.2f}%")

Как разобрать вложенный список с помощью sklearn?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт