Как ускорить код с подсчетом похожести?

Question

pcdesign @pcdesign

Python

Как ускорить код с подсчетом похожести?

Вот код:

import difflib
arr = [
    {"_id": 1, "list_word_int": [189, 114, 188,
                                 90, 2, 68, 96, 0, 250, 168, 150, 126]},
    {"_id": 2, "list_word_int": [224, 26, 56,
                                 153, 139, 128, 126, 220, 190, 137], },
    {"_id": 3, "list_word_int": [188, 241, 225,
                                 134, 134, 30, 134, 187, 204, 227, 3]},
    {"_id": 4, "list_word_int": [
        224, 166, 159, 236, 82, 17, 82, 21, 227, 97], },
    {"_id": 5, "list_word_int": [98, 96, 38, 107, 142, 134, 13, 36, 23], }
]


for a in arr:
    for b in arr:
        if b["_id"] == a["_id"]:
            continue

        sm = difflib.SequenceMatcher(None, a["list_word_int"],
                                     b["list_word_int"])
        ratio = sm.ratio()
        print("id= ", a["_id"],
              "Сравниваемый id=", b["_id"],
              "Коэффициент похожести:", ratio)

Вот результат:

id=  1 Сравниваемый id= 2 Коэффициент похожести: 0.09090909090909091
id=  1 Сравниваемый id= 3 Коэффициент похожести: 0.08695652173913043
id=  1 Сравниваемый id= 4 Коэффициент похожести: 0.0
id=  1 Сравниваемый id= 5 Коэффициент похожести: 0.09523809523809523
id=  2 Сравниваемый id= 1 Коэффициент похожести: 0.09090909090909091
id=  2 Сравниваемый id= 3 Коэффициент похожести: 0.0
id=  2 Сравниваемый id= 4 Коэффициент похожести: 0.1
id=  2 Сравниваемый id= 5 Коэффициент похожести: 0.0
id=  3 Сравниваемый id= 1 Коэффициент похожести: 0.08695652173913043
id=  3 Сравниваемый id= 2 Коэффициент похожести: 0.0
id=  3 Сравниваемый id= 4 Коэффициент похожести: 0.09523809523809523
id=  3 Сравниваемый id= 5 Коэффициент похожести: 0.1
id=  4 Сравниваемый id= 1 Коэффициент похожести: 0.0
id=  4 Сравниваемый id= 2 Коэффициент похожести: 0.1
id=  4 Сравниваемый id= 3 Коэффициент похожести: 0.09523809523809523
id=  4 Сравниваемый id= 5 Коэффициент похожести: 0.0
id=  5 Сравниваемый id= 1 Коэффициент похожести: 0.09523809523809523
id=  5 Сравниваемый id= 2 Коэффициент похожести: 0.0
id=  5 Сравниваемый id= 3 Коэффициент похожести: 0.1
id=  5 Сравниваемый id= 4 Коэффициент похожести: 0.0

difflib.SequenceMatcher - стандартная библиотека, показывает на сколько один массив похож на другой и дает коэффициент.

Все бы ничего, но у меня в массиве arr не 5 элементов как в примере, а 30 тыс.
Примерное время завершения работы при 30 тыс. элементах 7 дней.
Есть вариант это ускорить?

Вопрос задан более трёх лет назад
261 просмотр

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 3

22 комментария

Roman @myjcom

То же самое хотел предложить)
только все равно все упирается в
тут дальше копать нужно в multiprocessing
строить отдельно список всех комбинаций без повторений и разбивать по кол-ву ядер процессора.

Написано более трёх лет назад
Roman K @deliro

Роман, Да, к сожалению. Но 3.5 дня — уже не 7 :)

Написано более трёх лет назад
Roman K @deliro

Роман,
строить отдельно список всех комбинаций без повторений

Чтобы сильно не напрягаться, можно отвести каждому ядру конретные диапазоны, а другие пропускать с помощью `continue`. Да, это будет не так быстро, как построить список для каждого ядра и каждому ядру придётся итерироваться ПО ВСЕМ комбинациям (но считать не все), зато мозг не напрягать))

Например:
1-ый процесс считает первые [0; 100_000] элементов, затем [200_001; 300_000]
2-ой [100_001; 200_000], [300_001; 400_000] и т.д.

При этом первый после подсчёта первой сотни тысяч продолжает итерироваться, но пропускает с 100_001 по 200_000, потому что знает, что второй процесс это сделает.

Так можно масштабировать хоть на сколько процессов.
Ну это, конечно, при условии, что итерация по элементам списка сильно быстрее, чем подсчёт похожести :)

Написано более трёх лет назад
Roman @myjcom

Roman Kitaev, Ну да, если дальше копать то RPyC

Написано более трёх лет назад
Roman K @deliro

Резюмирую:
1. Откидывание симметричных значений уменьшает время в 2 раза
2. 16 процессов на 16 ядер уменьшают время ГРУБО ГОВОРЯ в 16 раз.

7 / (16 * 2) = 1/5 дня или ~5 часов. Удачи :)

Написано более трёх лет назад
Roman K @deliro

Роман, Я тут подумал, что куда проще не отдавать процессу диапазоны, а просто брать остаток от деления

Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса
Спасибо большое!

- Я запустил оба варианта.
Почему-то оба варианта выдают разные результаты. Но, второй быстрее, конечно.

- Эта строчка у меня не работала:
msg = f"PID: {os.getpid()} id={a['_id']} & {b['_id']} ratio={ratio}"

И я не очень понимаю что это.

- os.getpid() выдает все время одно и тоже число
Написано более трёх лет назад
Roman K @deliro

pcdesign,
os.getpid() выдает все время одно и тоже число

os.getpid() выдаёт PID процесса. Эта штука просто для того, чтобы показать тебе, что функции действительно выполняются в разных процессах. Если на всех строках одно число, значит у тебя на компе/сервер всего одно ядро и смысла параллелить нет. Сейчас это редкость. Встречается либо на самых дешёвых VPSках, либо на первой модели Raspberry PI

Почему-то оба варианта выдают разные результаты

Потому что они работают параллельно, без синхронизации. Это значит, что они будут выполняться в порядке, который ты не сможешь никогда предсказать, не обязательно последовательно.

Эта строчка у меня не работала:

Эта строчка использует синтаксис Python3.6. Если у тебя нет такой версии, переделай это на то, что ты хочешь

Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса
- У меня 4 ядра
$ cat /proc/cpuinfo | awk '/^processor/{print $3}' | wc -l 4

- На счет строки понятно. Спасибо! У меня python 3.6, но мой редактор vim офигел от такой строки :)

- На счет того, что результат отличаются. Но он реально отличается. Это меня немного смущает.
Я сделал выборку
if ratio > 0.5:

На небольшом кол-ве айтемов. И есть отличие. Первый вариант нашел больше результатов.
Написано более трёх лет назад

pcdesign @pcdesign Автор вопроса

Вот результат работы для первых 100 id.

Первый вариант

id=  22 Сравниваемый id= 24075 Коэффицент похожести: 0.7941176470588235
id=  25 Сравниваемый id= 5977 Коэффицент похожести: 0.8571428571428571
id=  28 Сравниваемый id= 21417 Коэффицент похожести: 1.0
id=  30 Сравниваемый id= 11981 Коэффицент похожести: 0.8095238095238095
id=  33 Сравниваемый id= 7291 Коэффицент похожести: 0.6
id=  34 Сравниваемый id= 16198 Коэффицент похожести: 0.7741935483870968
id=  35 Сравниваемый id= 5576 Коэффицент похожести: 1.0
id=  37 Сравниваемый id= 24975 Коэффицент похожести: 0.8333333333333334
id=  40 Сравниваемый id= 29336 Коэффицент похожести: 0.7857142857142857
id=  42 Сравниваемый id= 13502 Коэффицент похожести: 0.5862068965517241
id=  46 Сравниваемый id= 8368 Коэффицент похожести: 1.0
id=  46 Сравниваемый id= 15887 Коэффицент похожести: 0.9090909090909091
id=  52 Сравниваемый id= 9102 Коэффицент похожести: 0.8571428571428571
id=  56 Сравниваемый id= 2003 Коэффицент похожести: 0.8571428571428571
id=  65 Сравниваемый id= 15491 Коэффицент похожести: 0.9
id=  66 Сравниваемый id= 9120 Коэффицент похожести: 0.7692307692307693
id=  68 Сравниваемый id= 13993 Коэффицент похожести: 0.9361702127659575
id=  71 Сравниваемый id= 17274 Коэффицент похожести: 0.6111111111111112
id=  78 Сравниваемый id= 28625 Коэффицент похожести: 0.926829268292683
id=  80 Сравниваемый id= 11477 Коэффицент похожести: 0.8484848484848485
id=  82 Сравниваемый id= 14174 Коэффицент похожести: 0.6511627906976745
id=  82 Сравниваемый id= 23249 Коэффицент похожести: 0.7719298245614035
id=  85 Сравниваемый id= 11667 Коэффицент похожести: 1.0
id=  87 Сравниваемый id= 6150 Коэффицент похожести: 1.0
id=  90 Сравниваемый id= 18204 Коэффицент похожести: 0.88
id=  92 Сравниваемый id= 2253 Коэффицент похожести: 0.8571428571428571
id=  94 Сравниваемый id= 898 Коэффицент похожести: 0.9
id=  95 Сравниваемый id= 22233 Коэффицент похожести: 0.6495726495726496
id=  100 Сравниваемый id= 15315 Коэффицент похожести: 0.9

Второй вариант уже с cycle

PID: 11072 id=22 & 24075 ratio=0.7941176470588235
PID: 11072 id=66 & 9120 ratio=0.7692307692307693
PID: 11072 id=80 & 11477 ratio=0.8484848484848485
PID: 11072 id=85 & 11667 ratio=1.0
PID: 11072 id=92 & 2253 ratio=0.8571428571428571
PID: 11072 id=94 & 898 ratio=0.9
PID: 11072 id=95 & 22233 ratio=0.6495726495726496

Написано более трёх лет назад

Roman K @deliro

pcdesign, Да, такое чувство, что что-то пропускается :) Ради интереса я решил немного заморочиться с мультипроцессингом. Сейчас апну ответ. Вариант с воркером для создания очереди и воркерами для обработки. Однако, у меня есть такое чувство, что именно генерация комбинаций занимает львиную долю времени, не обработка. Если это так, то параллелить надо её, а не обработку.

Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса
Roman Kitaev, спасибо!
Вот ссылка на реальный файл, он 1.5 мега всего:
Дальше я его вот так открываю
import json with open('obj.json') as f: arr = json.load(f)
Написано более трёх лет назад
Roman K @deliro

pcdesign, Собственно, мои опасения подтвердились. Вот на скрине можно увидеть, как работают 3 воркера для обработки массивов и один для генерации этих сочетаний. Генератор напрягается сильней, так что, оптимизировать надо его.

Но для академического интереса я всё равно скину пример кода с очередью :)

Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса

Roman Kitaev, на картинке это уже с моим файлом?

Написано более трёх лет назад
Roman K @deliro

pcdesign, Нет, это я просто твой массив из примера умножил на 500.

Написано более трёх лет назад
Roman K @deliro

pcdesign, Кстати, вариант с отдельным процессом-генератором и даже одним воркером должен быть быстрее, чем вообще однопоточный код. А учитывая то, что на скрине 3 процесса загружены на 50%, значит, что они всё же быстрее, чем один. Так что, последний вариант должен быть быстрее всех. Но я бы всё равно потестил на небольшой выборке, но достаточно большой, чтобы нивелировать время на создание процессов. Подбери такую выборку, чтобы она выполнялась за минуту, скажем.

Написано более трёх лет назад

pcdesign @pcdesign Автор вопроса

Roman Kitaev, я добавил следующее:

if ratio > 0.5:                                                          
	print(f"PID: {pid} id={a['_id']} & {b['_id']} ratio={ratio}")        
                                                                                 
if a['_id'] == 100:                                                      
	sys.exit()

Запустил скрипт. Вот такой результат для второго варианта.

time python get_dub.py 
PID: 11177 id=22 & 24075 ratio=0.7941176470588235
PID: 11180 id=25 & 5977 ratio=0.8571428571428571
PID: 11180 id=28 & 21417 ratio=1.0
PID: 11178 id=30 & 11981 ratio=0.8095238095238095
PID: 11179 id=33 & 7291 ratio=0.6
PID: 11179 id=34 & 16198 ratio=0.7741935483870968
PID: 11180 id=35 & 5576 ratio=1.0
PID: 11180 id=37 & 24975 ratio=0.8333333333333334
PID: 11179 id=40 & 29336 ratio=0.7857142857142857
PID: 11180 id=42 & 13502 ratio=0.5862068965517241
PID: 11180 id=46 & 8368 ratio=1.0
PID: 11179 id=46 & 15887 ratio=0.9090909090909091
PID: 11178 id=52 & 9102 ratio=0.8571428571428571
PID: 11178 id=56 & 2003 ratio=0.8571428571428571
PID: 11180 id=65 & 15491 ratio=0.9
PID: 11177 id=66 & 9120 ratio=0.7692307692307693
PID: 11179 id=68 & 13993 ratio=0.9361702127659575
PID: 11179 id=71 & 17274 ratio=0.6111111111111112
PID: 11178 id=78 & 28625 ratio=0.926829268292683
PID: 11177 id=80 & 11477 ratio=0.8484848484848485
PID: 11180 id=82 & 14174 ratio=0.6511627906976745
PID: 11178 id=82 & 23249 ratio=0.7719298245614035
PID: 11177 id=85 & 11667 ratio=1.0
PID: 11180 id=87 & 6150 ratio=1.0
PID: 11178 id=90 & 18204 ratio=0.88
PID: 11177 id=92 & 2253 ratio=0.8571428571428571
PID: 11177 id=94 & 898 ratio=0.9
PID: 11177 id=95 & 22233 ratio=0.6495726495726496

real    1m21.651s
user    5m24.178s
sys     0m0.121s

Где-то 6 часов нужно до завершения :)

3-ий вариант вообще не алё, работает медленнее чем первый вариант.

Написано более трёх лет назад

Roman K @deliro

pcdesign, Да, очень вероятно, что время на передачу данных очередью может накладывать крайне большие расходы :)

Написано более трёх лет назад
longclaps @longclaps

только все равно все упирается в C(n,m)

Пурга, уважаемый Роман
Сложность написанного топикстартером - квадратичная, сложность алгоритма библиотеки - тоже квадратичная.
Так шата можете обогатить свой репертуар репликой
все упирается в полиномиальную сложность

Написано более трёх лет назад
longclaps @longclaps

Нет, это я просто твой массив из примера умножил на 500

Roman Kitaev, думаю, при этом все данные помещаются в кэш процессора первого уровня )

Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса

Roman Kitaev, Спасибо. Скрипт № 2 справился за 3 часа со всеми 30к.

time python get_dub.py

real 229m27.654s
user 913m7.855s
sys 0m3.513s

Написано более трёх лет назад
Roman K @deliro

pcdesign, Спасибо, что сообщил о результатах :) Было интересно

Написано более трёх лет назад

Комментировать

3 комментария

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Что не так с моими асинхронными запросами?
- 1 подписчик
- 20 авг.
- 138 просмотров
0

ответов
Python

Простой
Как в питоне генерировать (создавать+заполнять значениями по умолчанию) вложенный словарь так, чтобы вложенные элементы не были копиями друг друга?
- 1 подписчик
- 20 авг.
- 117 просмотров
1

ответ
Python

+1 ещё

Простой
Из-за чего возникает ошибка неверный дескриптор?
- 1 подписчик
- 19 авг.
- 99 просмотров
1

ответ
Python

Простой
Непонимание ошибки yolo8?
- 1 подписчик
- 19 авг.
- 60 просмотров
0

ответов
Python

+1 ещё

Простой
Как грамотно изначально сделать телеграмм бота на Python с помощью aiogram чтобы выдерживал как минимум 10к пользователи и можно было масштабировать?
- 1 подписчик
- 18 авг.
- 227 просмотров
2

ответа
Python

Простой
Как сделать lock для двух асинхронных программ?
- 1 подписчик
- 18 авг.
- 130 просмотров
1

ответ
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- нет подписчиков
- 16 авг.
- 144 просмотра
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 142 просмотра
1

ответ
Python

Простой
Что можно ускорить в коде решателя игры крестики нолики?
- 1 подписчик
- 16 авг.
- 232 просмотра
1

ответ
Python

Простой
Как подключиться по SMTP к Reg ru?
- 1 подписчик
- 15 авг.
- 144 просмотра
0

ответов
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2018-08-15 15:48:59

1. Убери повторения (в моём примере это уже сделано), сравнивать id=5 с id=1 не надо, если ты уже сравнил id=1 с id=5. Они симметричны
2. Если кэш поможет (в чём я сомневаюсь) — можно его оставить. Если ты уверен, что не будет двух неуникальных list_word_int — выбрасывай кэш смело.
3. Это вроде можно распараллелить. Задействуй все ядра
4. Перепиши это на быстрый компилируемый язык вроде Golang или Cython

Однопоточный код

import difflib
from functools import lru_cache
from itertools import combinations

arr = [
    {"_id": 1, "list_word_int": (189, 114, 188, 90, 2, 68, 96, 0, 250, 168, 150, 126)},
    {"_id": 2, "list_word_int": (224, 26, 56, 153, 139, 128, 126, 220, 190, 137)},
    {"_id": 3, "list_word_int": (188, 241, 225, 134, 134, 30, 134, 187, 204, 227, 3)},
    {"_id": 4, "list_word_int": (224, 166, 159, 236, 82, 17, 82, 21, 227, 97)},
    {"_id": 5, "list_word_int": (98, 96, 38, 107, 142, 134, 13, 36, 23)},
]


@lru_cache(maxsize=2 ** 13)
def get_ratio(lst1, lst2):
    return difflib.SequenceMatcher(None, lst1, lst2).ratio()


if __name__ == "__main__":
    for a, b in combinations(arr, 2):
        ratio = get_ratio(a["list_word_int"], b["list_word_int"])
        print(
            "id= ",
            a["_id"],
            "Сравниваемый id=",
            b["_id"],
            "Коэффициент похожести:",
            ratio,
        )

    print(get_ratio.cache_info())

Параллельное выполнение, генерация комбинаций во всех процессах

import difflib
import multiprocessing as mp
import os
from itertools import combinations, cycle

arr = [
    {"_id": 1, "list_word_int": [189, 114, 188, 90, 2, 68, 96, 0, 250, 168, 150, 126]},
    {"_id": 2, "list_word_int": [224, 26, 56, 153, 139, 128, 126, 220, 190, 137]},
    {"_id": 3, "list_word_int": [188, 241, 225, 134, 134, 30, 134, 187, 204, 227, 3]},
    {"_id": 4, "list_word_int": [224, 166, 159, 236, 82, 17, 82, 21, 227, 97]},
    {"_id": 5, "list_word_int": [98, 96, 38, 107, 142, 134, 13, 36, 23]},
]


def target(id_, count):
    pid = os.getpid()

    for i, (a, b) in zip(cycle(range(count)), combinations(arr, 2)):
        if i != id_:
            continue
        ratio = difflib.SequenceMatcher(
            None, a["list_word_int"], b["list_word_int"]
        ).ratio()
        print(f"PID: {pid} id={a['_id']} & {b['_id']} ratio={ratio}")


if __name__ == "__main__":
    processes = []

    for x in range(mp.cpu_count()):
        p = mp.Process(target=target, args=(x, mp.cpu_count()))
        p.start()
        processes.append(p)

    for p in processes:
        p.join()

Один процесс генерирует комбинации в очередь, остальные обрабатывают

import difflib
import multiprocessing as mp
import os
from itertools import combinations

arr = [
    {"_id": 1, "list_word_int": [189, 114, 188, 90, 2, 68, 96, 0, 250, 168, 150, 126]},
    {"_id": 2, "list_word_int": [224, 26, 56, 153, 139, 128, 126, 220, 190, 137]},
    {"_id": 3, "list_word_int": [188, 241, 225, 134, 134, 30, 134, 187, 204, 227, 3]},
    {"_id": 4, "list_word_int": [224, 166, 159, 236, 82, 17, 82, 21, 227, 97]},
    {"_id": 5, "list_word_int": [98, 96, 38, 107, 142, 134, 13, 36, 23]},
]


def queue_creator(q, w_count):
    pid = os.getpid()
    print("Created queue generator PID", pid)

    for a, b in combinations(arr, 2):
        q.put((a, b))
    for _ in range(w_count):
        q.put(("stop", None))


def worker(q):
    pid = os.getpid()
    print("Created worker PID", pid)

    while True:
        a, b = q.get()
        if a == "stop":
            break

        ratio = difflib.SequenceMatcher(
            None, a["list_word_int"], b["list_word_int"]
        ).ratio()
        print(f"PID:{pid} {a['_id']} & {b['_id']} ratio={ratio}")


if __name__ == "__main__":
    queue = mp.Queue()
    # 1 воркер на генерацию комбинаций, остальные на обработку
    workers_count = (mp.cpu_count() - 1) or 1
    q_process = mp.Process(target=queue_creator, args=(queue, workers_count))
    q_process.start()
    processes = [q_process]

    for x in range(workers_count):
        p = mp.Process(target=worker, args=(queue,))
        p.start()
        processes.append(p)

    for process in processes:
        process.join()

Answer 2 · 2018-08-15 14:59:30

Можно сэкономить время если не сравнивать 2 с 1, т.к. ранее уже сравнивался 1 с 2.
Это и других повторов касается, так в вашем примере 20 сравнений, а по факту хватит 4+3+2+1=10 сравнений, т.е. ускорение в 2 раза.

Answer 3 · 2018-08-15 15:03:38

Вы сравниваете любые два элемента дважды, как вариант можете удалять элемент из массива после того как уже сравнили его со всеми. То есть после выполнения вложенного цикла. Тогда можно ускорить в два раза. Других способов ускорить нет, только если разбираться как работает библиотека.

Как ускорить код с подсчетом похожести?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт