Как найти частичное совпадение строк?

Question

Сергей Сергей @Sergey1712

Как найти частичное совпадение строк?

у меня есть список строк, вот пример одной

0 .. трубок использовали для прожигания стальковша.Замена воронки 18м 8сл. Разлита полностью.

и надо определить содержится ли " трубок использовали для прожигания" в этой строке
НО:
могут быть ошибки/опечатки
Как это сделать?

Вопрос задан более трёх лет назад
9241 просмотр

Комментировать

Подписаться 4 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 2

7 комментариев

Руслан Гильфанов @ri_gilfanov

Сергей Сергей, если ответ более-менее приемлемо решает задачу, отметьте его "решением".

Спасибо.

Написано более трёх лет назад
Сергей Сергей @Sergey1712 Автор вопроса

Руслан Гильфанов, как можно записать любое число?
Вот в примере 18м а мне надо чтобы любое число с буквой м проходило, что то типо nм

Написано более трёх лет назад
Руслан Гильфанов @ri_gilfanov
Сергей Сергей, если я правильно понял вопрос.

Допустим есть строка:
string = 'Рост 180см, вес 90кг'

Если нам нужно просто заменить все числа, допустим на "_n_" и сохранить как новую строку:
new_string = re.sub(r'\d+', '_n_', string)

Заменить только числа написанные слитно с некими буквами (например, "18м" на "_n_м") кажется чуть сложнее. Можно сделать следующим образом.

Найти подстроки нужного вида можно так:
substrings = re.findall(r'\d[\w]+', string)

Затем, можно сделать пары вида исходная подстрока и та, на которую нужно заменить (например, заменим числа в них на _n_):
substring_pairs = [] for substring in substrings: new_substring = re.sub(r'\d+', '_n_', substring) substring_pair = substring, new_substring substring_pairs.append(substring_pair)

И наконец, произведём в нашей строке замену исходных подстрок на новые, чтобы получить новую строку с нужными нам изменениями:
new_string = string for old, new in substring_pairs: new_string = re.sub(old, new, new_string)

Смотрим, что получилось:
print(new_string)

Результат:
Рост _n_см, вес _n_кг

Я не случайно заменил на "_n_", а не "n". Так проще найти это самое "любое число" и, при необходимости, заменить его на что угодно.

P.S. Постарайтесь вникнуть в модуль re стандартной библиотеки Python для работы с регулярными выражениями, вот пара статей для изучения:
Sunil Ray. Использование регулярных выражений в Py...
Сергей Шашков. Регулярные выражения в Python от пр...
Написано более трёх лет назад
Сергей Сергей @Sergey1712 Автор вопроса

Руслан Гильфанов, а что будет выводить функция выше на это n?

Написано более трёх лет назад
Руслан Гильфанов @ri_gilfanov

Сергей Сергей, какая именно функция? И что именно Вы хотите получить?

Вам нужно игнорировать любые числа при поиске частичного совпадения строк?

Написано более трёх лет назад
Сергей Сергей @Sergey1712 Автор вопроса

Руслан Гильфанов, мне нужно чтобы если в строке есть 14м то на _n_м мне выдало совпадение

Написано более трёх лет назад

Руслан Гильфанов @ri_gilfanov

Сергей Сергей, код ниже устроит?

import re


def get_substrings(string):
    return re.split('\W+', string)


def get_string_with_any_number(string):
    return re.sub(r'\d+', '_n_', string)


def get_distance(s1, s2):
    d, len_s1, len_s2 = {}, len(s1), len(s2)
    for i in range(-1, len_s1 + 1):
        d[(i, -1)] = i + 1
    for j in range(-1, len_s2 + 1):
        d[(-1, j)] = j + 1
    for i in range(len_s1):
        for j in range(len_s2):
            if s1[i] == s2[j]:
                cost = 0
            else:
                cost = 1
            d[(i, j)] = min(
                d[(i - 1, j)] + 1,
                d[(i, j - 1)] + 1,
                d[(i - 1, j - 1)] + cost)
            if i and j and s1[i] == s2[j - 1] and s1[i - 1] == s2[j]:
                d[(i, j)] = min(d[(i, j)], d[i - 2, j - 2] + cost)
    return(d[len_s1 - 1, len_s2 - 1])


def check_substring(search_request, original_text, max_distance, any_number):
    if any_number:
        search_request = get_string_with_any_number(search_request)
        original_text = get_string_with_any_number(original_text)

    substring_list_1 = get_substrings(search_request)
    substring_list_2 = get_substrings(original_text)

    not_found_count = len(substring_list_1)

    for substring_1 in substring_list_1:
        for substring_2 in substring_list_2:
            if get_distance(substring_1, substring_2) <= max_distance:
                not_found_count -= 1

    if not_found_count <= 0:
        return True


search_request = 'трубок использовали для прожигания _n_м'
original_text = 'трубок использовали для прожигания стальковша.Замена воронки 18м 8сл. Разлита полностью'

result = check_substring(search_request, original_text, max_distance=2,
                         any_number=True)

print(result)

Написано более трёх лет назад

8 комментариев

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Карьера в IT

+1 ещё

Средний
Хочу попробовать стать системным аналитиком, с чего лучше начать и во сколько попытаться найти работу?
- 4 подписчика
- 25 июн.
- 893 просмотра
6

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 207 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 537 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 490 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 279 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 504 просмотра
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 213 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Информационная безопасность

+3 ещё

Простой
Утечка кейвордов в Телеграм при посещении постороннего сайта?
- 3 подписчика
- 03 июн.
- 308 просмотров
3

ответа
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2019-01-18 00:47:10

Без дополнительных библиотек и с использованием расстояния Дамерау-Левенштейна можно примерно так:

import re


def get_substrings(string):
    """Функция разбивки на слова"""
    return re.split('\W+', string)


def get_distance(s1, s2):
    """Расстояние Дамерау-Левенштейна"""
    d, len_s1, len_s2 = {}, len(s1), len(s2)
    for i in range(-1, len_s1 + 1):
        d[(i, -1)] = i + 1
    for j in range(-1, len_s2 + 1):
        d[(-1, j)] = j + 1
    for i in range(len_s1):
        for j in range(len_s2):
            if s1[i] == s2[j]:
                cost = 0
            else:
                cost = 1
            d[(i, j)] = min(
                d[(i - 1, j)] + 1,
                d[(i, j - 1)] + 1,
                d[(i - 1, j - 1)] + cost)
            if i and j and s1[i] == s2[j - 1] and s1[i - 1] == s2[j]:
                d[(i, j)] = min(d[(i, j)], d[i - 2, j - 2] + cost)
    return(d[len_s1 - 1, len_s2 - 1])


def check_substring(search_request, original_text, max_distance):
    """Проверка нечёткого вхождения одного набора слов в другой"""
    substring_list_1 = get_substrings(search_request)
    substring_list_2 = get_substrings(original_text)

    not_found_count = len(substring_list_1)

    for substring_1 in substring_list_1:
        for substring_2 in substring_list_2:
            if get_distance(substring_1, substring_2) <= max_distance:
                not_found_count -= 1

    if not not_found_count:
        return True


search_request = 'трубок использовали для прожигания'
original_text = 'трубок использовали для прожигания стальковша.Замена воронки 18м 8сл. Разлита полностью'

result = check_substring(search_request, original_text, max_distance=2)

print(result)  # True если найдено, иначе None

Можете доработать под свои задачи. Но учтите, нахождение расстояния Дамерау-Левенштейна в принципе ресурсоёмкая операция, тем более с реализацией на чистом Python. Например, искать вхождение подстроки в нескольких мегабайтах текста -- может быть довольно долго.

Чтобы ускорить нахождение расстояния ДЛ, можно использовать реализацию для Python на языке Си: https://github.com/gfairchild/pyxDamerauLevenshtein

Так же существуют менее точные, но более быстрые алгоритмы сравнения двух строк:
https://habr.com/ru/post/114997/
В PyPI и на GitHub должны быть библиотеки с готовыми реализациями наиболее востребованных из них.

Answer 2 · 2019-01-17 23:49:41

pip3 install fuzzywuzzy[speedup]

from fuzzywuzzy import fuzz

x = "0 .. трубок использовали для прожигания стальковша.Замена воронки 18м 8сл. Разлита полностью."
y = "трубок использооали для прожигания"

fuzz.partial_ratio(x, y)

https://github.com/seatgeek/fuzzywuzzy

Answer 3 · 2019-01-18 09:56:06

al_gon @al_gon

Как осуществить анализ схожести строк и проверить на плагиат?

Ответ написан более трёх лет назад

Комментировать

Как найти частичное совпадение строк?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт