Как наиболее точно сравнить две строки?

Question

Bjornie @Bjornie

Изучаю Python

Python

Как наиболее точно сравнить две строки?

Есть строка (комплектация) A 170 Classic - 7/2004 - 85Kw, которую надо выбрать из результатов поиска, в котором есть такие строки:

A 170 CDI CAT CLASSIC
A 170 CDI CAT ELEGANCE
A 170 CDI CAT AVANTGARDE

Из первой строки меня интересует только A 170 Classic. Но я не могу ее сравнить точно со 2-й строкой, т.к. в ней посередине присутствует CDI CAT.

У меня уже получалось 100% точно выбирать нужную комплектацию, когда в переменных были хотя бы CV и Kw. Но в данный момент их нет.

Таких вариаций может быть очень много и хотелось бы понять как наиболее точно их сравнивать.

Вопрос задан более трёх лет назад
1135 просмотров

4 комментария

Подписаться 7 Простой 4 комментария

Psq @Psq

Не могу подсказать красивые решения (сам изучаю питон).

Я бы разбивал строки на составляющие (слова), и присваивал бы им веса.
Наиболее интересным для вас - больший вес. При накоплении минимально допустимого веса строка считается совпадающей.

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev Куратор тега Python

Поясните, что значит "которую надо выбрать из результатов поиска, в котором есть такая строка"?

Написано более трёх лет назад
javedimka @javedimka

Можно засплититт по пробелам, сделать нижний регистр, преобразовать в сет один из получившихся списков, сделать .intersection на второй список, по количеству слов в получившимся сете определяешь попал или не попал.

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev Куратор тега Python

Bjornie, результаты чего? От того откуда у вас пришла строка, по которой вы ищите, и данные, среди которых вы ищите, а также от того, в каком виде эти данные в программе представлены, в немалой степени зависит ответ.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

3 комментария

Bjornie @Bjornie Автор вопроса

Andrey Dugin спасибо, это очень круто. Т.к. для каждой модели комплектации будут более-менее похожими (хотя бы половина строки), могу ли я положиться на эту реализацию. Пример с Мерседесом был таким, а у Пежо может быть другой. В тестинге других вариантов я наверняка это узнаю, но хочется понять где магия у этой библиотеки.

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev Куратор тега Python

Bjornie, по ссылке "Теория" вся магия описана.

Написано более трёх лет назад
Andrey Dugin @adugin Куратор тега Python

Bjornie, ознакомьтесь с документацией. Про get_close_matches() написано: "The best (no more than n) matches among the possibilities are returned in a list, sorted by similarity score, most similar first." - то есть первым (нулевым) элементом возвращаемого списка всегда будет наиболее похожая строка. При этом cutoff можно даже задать равным нулю, этот параметр используется только для редукции результата. Также через cutoff можно отсекать заведомо неподходящие результаты, чтобы в случае отсутствия логического совпадения не выводить наиболее похожее, которое ответом не является.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 3

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 211 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 561 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 495 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 284 просмотра
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 512 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 126 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 331 просмотр
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 665 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 346 просмотров
1

ответ
Показать ещё Загружается…

Не могу подсказать красивые решения (сам изучаю питон).

Я бы разбивал строки на составляющие (слова), и присваивал бы им веса.
Наиболее интересным для вас - больший вес. При накоплении минимально допустимого веса строка считается совпадающей.
Поясните, что значит "которую надо выбрать из результатов поиска, в котором есть такая строка"?
Можно засплититт по пробелам, сделать нижний регистр, преобразовать в сет один из получившихся списков, сделать .intersection на второй список, по количеству слов в получившимся сете определяешь попал или не попал.
Bjornie, результаты чего? От того откуда у вас пришла строка, по которой вы ищите, и данные, среди которых вы ищите, а также от того, в каком виде эти данные в программе представлены, в немалой степени зависит ответ.

Answer 1 · 2017-11-07 15:35:36

Пример решения с использованием стандартной библиотеки difflib:

from difflib import get_close_matches as gcm

model = 'A 170 Classic - 7/2004 - 85Kw'.upper()
model_list = map(str.upper, [
    'A 170 CDI CAT ELEGANCE',
    'A 170 CDI CAT CLASSIC',
    'A 170 CDI CAT AVANTGARDE',
])

result = gcm(model, model_list, n=1, cutoff=0.5)[0]

print(result)  # => 'A 170 CDI CAT CLASSIC'

Также посмотрите в сторону difflib.SequenceMatcher().ratio(), это имеет прямое отношение к cutoff в примере выше:

from difflib import SequenceMatcher as SM

s1 = 'A 170 Classic - 7/2004 - 85Kw'.upper()
s2 = 'A 170 CDI CAT CLASSIC'.upper()

SM(isjunk=None, a=s1, b=s2, autojunk=True).ratio()  # => 0.52

Теория: Расстояние Левенштейна

Answer 2 · 2017-11-07 16:44:35

Ух, как я подразумеваю, вам нужен полнотекстовый поиск, так вам сюда -elasticsearch.com
сюда - elasticsearch-dsl.readthedocs.io/en/latest
и сюда - https://elasticsearch-py.readthedocs.io/en/master/

Другими словами,
1) ставите Elasticsearch
2) заливатете в него свои данные
3) ищете их из питона через ES python client API и ES python DSL

Получаете скилов и профит в быстром поиске.

PS. Если чо - обращайтесь.

PPS. Есть второй путь - сделать свой "обратный" индекс термов, где набору термов соответствуют ID документов, но это долго, нужно, муторно и дорого.

Answer 3 · 2017-11-07 15:57:08

str1 = "A 170 Classic - 7/2004 - 85Kw".upper().split(' ') # не забываем привести к одному регистру

text = ['A 170 CDI CAT CLASSIC', '123']

search_words = [str1[0], str1[1], str1[2]] # Задаем ключевые слова для поиска

for sentence in text:
    for word in search_words:
        if word not in sentence:
            break
    else:
        print(sentence)

Answer 4 · 2017-11-08 05:53:24

Легковесная альтернатива Elasticsearch sphinxsearch.com
sphinx умеет притворяться mysql ранних версий, поэтому можно брать любую python либу для подключения к mysql.
Туторы на православном chakrygin.ru/search/label/Sphinx немного устарели, но лучше не найти.

Как наиболее точно сравнить две строки?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт