Как найти похожие слова в списке?

Question

pcdesign @pcdesign

Python

Как найти похожие слова в списке?

Есть такой список
['голубец', 'конь', 'голубцы', 'лист']
Программа должна выдать: голубец

Еще пример:
['стол', 'день', 'свет', 'клинок', 'светильник']
Программа должна выдать: свет.

Ну и еще пример:
['восток', 'дань', 'исток', 'жир', 'голубь', 'да']
Программа должна выдать: восток

Как это реализовать на python?

Вопрос задан более трёх лет назад
6181 просмотр

Комментировать

Подписаться 7 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 2

3 комментария

pcdesign @pcdesign Автор вопроса

Спасибо! Красивое у вас решение.

Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса

Пытаюсь ваше решение вставить в реальный проект, но vim выдает предупреждение.
Ну то есть не ошибка, а типа не соответствует канонам:

"E731 do not assign a lambda expression, use a def [pep8]"
stackoverflow.com/questions/25010167/e731-do-not-a...

Написано более трёх лет назад
Andrey Dugin @adugin Куратор тега Python

def ratio(pair): return (SequenceMatcher(None, *pair).ratio(), pair[0])

Написано более трёх лет назад

Комментировать

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

Александр @Avernial

def levenshtein(s, t):
        ''' From Wikipedia article; Iterative with two matrix rows. '''
        if s == t: return 0
        elif len(s) == 0: return len(t)
        elif len(t) == 0: return len(s)
        v0 = [None] * (len(t) + 1)
        v1 = [None] * (len(t) + 1)
        for i in range(len(v0)):
            v0[i] = i
        for i in range(len(s)):
            v1[0] = i + 1
            for j in range(len(t)):
                cost = 0 if s[i] == t[j] else 1
                v1[j + 1] = min(v1[j] + 1, v0[j + 1] + 1, v0[j] + cost)
            for j in range(len(v0)):
                v0[j] = v1[j]

        return v1[len(t)]

print(levenshtein('голубец', 'конь'))
print(levenshtein('голубец', 'голубцы'))

Написано более трёх лет назад

8 комментариев

pcdesign @pcdesign Автор вопроса

Нет, вы заранее не знаете какие там будут слова.
У вас есть список неких слов. Из которых надо найти максимально похожие.

Написано более трёх лет назад
Salavat Sharapov @desperadik

Ну дык опишите это в условии *(.

Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса

Вопрос называется "Как найти похожие слова в списке?"

Написано более трёх лет назад
Alexv01 @Alexv01

А что для вас "похожие", вот это и опишите

Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса

Alexv01: это видно из примеров, которые я привел

Написано более трёх лет назад
Alexv01 @Alexv01

Кому видно?)
А вы программист?))) Дык опишите в условиии это.

Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса

Alexv01: С таким же успехом можно спросить, а что для вас "слово"?
Напишите в условии.

Написано более трёх лет назад
Alexv01 @Alexv01

Ваше условие задачи, вам и описывать

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- 22 июл.
- 144 просмотра
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 95 просмотров
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 109 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 371 просмотр
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 241 просмотр
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 679 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 555 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 309 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 577 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 229 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2015-02-03 00:37:33

# -*- coding: utf-8 -*-

from difflib import SequenceMatcher
from itertools import combinations, imap

def ratio(pair):
    return (SequenceMatcher(None, *pair).ratio(), pair[0])

def findword(wordlist):
    pairs = combinations(wordlist, 2)
    found = max(imap(ratio, pairs))[1] 
    return found

print findword(['голубец', 'конь', 'голубцы', 'лист'])
print findword(['стол', 'день', 'свет', 'клинок', 'светильник'])
print findword(['восток', 'дань', 'исток', 'жир', 'голубь', 'да'])

Результат:

голубец
свет
восток

Answer 2 · 2015-02-02 15:14:26

Ну как-то вот так получилось:

import difflib


def similar(arr):
    s = difflib.SequenceMatcher()
    full = []
    for i in arr:
        s.set_seq2(i)
        for n in (arr):
            if n == i:
                continue
            s.set_seq1(n)
            full.append((s.ratio(), n))
            full.sort(reverse=True)

    print("### Отладка ### Сколько каждое слово набрало очков похожести")
    for score, i in full:
        print(i + str(score))

    return full[0]

arr = ['голубец', 'конь', 'голубцы', 'лист']
print("Итоговый результат:" + similar(arr)[1])

arr = ['стол', 'день', 'свет', 'клинок', 'светильник']
print("Итоговый результат:" + similar(arr)[1])

arr = ['восток', 'дань', 'исток', 'жир', 'голубь', 'да']
print("Итоговый результат:" + similar(arr)[1])

Результат работы:

### Отладка ### Сколько каждое слово набрало очков похожести
голубцы0.8571428571428571
голубец0.8571428571428571
лист0.18181818181818182
лист0.18181818181818182
конь0.18181818181818182
конь0.18181818181818182
голубцы0.18181818181818182
голубцы0.18181818181818182
голубец0.18181818181818182
голубец0.18181818181818182
лист0.0
конь0.0
Итоговый результат:голубцы 

### Отладка ### Сколько каждое слово набрало очков похожести
светильник0.5714285714285714
свет0.5714285714285714
стол0.5
свет0.5
стол0.42857142857142855
светильник0.42857142857142855
светильник0.375
светильник0.2857142857142857
день0.2857142857142857
свет0.25
день0.25
стол0.2
клинок0.2
клинок0.2
день0.2
клинок0.125
стол0.0
свет0.0
клинок0.0
день0.0
Итоговый результат:светильник

### Отладка ### Сколько каждое слово набрало очков похожести
исток0.7272727272727273
восток0.7272727272727273
дань0.6666666666666666
да0.6666666666666666
исток0.25
жир0.25
дань0.2
голубь0.2
исток0.18181818181818182
голубь0.18181818181818182
голубь0.16666666666666666
восток0.16666666666666666
исток0.0
исток0.0
жир0.0
жир0.0
жир0.0
жир0.0
дань0.0
дань0.0
дань0.0
да0.0
да0.0
да0.0
да0.0
голубь0.0
голубь0.0
восток0.0
восток0.0
восток0.0
Итоговый результат:исток

Answer 3 · 2015-02-02 12:14:47

raiboon @raiboon

https://en.wikipedia.org/wiki/Levenshtein_distance

Ответ написан более трёх лет назад

1 комментарий

Answer 4 · 2015-02-02 11:58:58

Salavat Sharapov @desperadik

Истина где-то рядом.

а = ['голубец', 'конь', 'голубцы', 'лист']
for b in a:
     if b == 'голубцы':
          print 'голубец'
      else:
           countinue

нет?

Ответ написан более трёх лет назад

8 комментариев

Answer 5 · 2015-02-02 12:57:51

Помимо вычислений различных расстояний, можно пойти путем где на первом этапе нормализовать слова, на втором уже сравнивать нормальные формы. Нормализовать слова можно так называемым стеммером, например, из пакета nltk.

Как найти похожие слова в списке?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт