Как быстро сравнить огромные списки словарей?

Question

xgyrfalconx @xgyrfalconx

Python

Как быстро сравнить огромные списки словарей?

Допустим у нас есть два списка словарей:
a = [{'column1': 'Россия','column2':'Москва', 'column3': '01.02.2019'}, {'column1': 'Россия','column2':'Мурманск', 'column3': '01.02.2018'}...]
b = [{'column1': 'Россия','column2':'Москва', 'column3': '01.02.2019'}, {'column1': 'Россия','column2':'Мурманск', 'column3': '01.02.2018'}...]

Количество словарей в списках около 190000.
Ключи словарей одинаковые в обоих списках и остаются без изменений , но значения могут изменяться как в словаре a, так и в словаре b. Нужно найти отличия словаря а от б и наоборот. Я использую такое сравнение:

no_in_b = []
        no_in_a = []
        for i in a:
            if i not in b:
                no_in_b.append(i)
            else:
                pass

        for i in b:
            if i not in a:
                no_in_a.append(i)
            else:
                pass

Но выполнение такого рода сравнения занимает около часа , есть ли возможность сравнивать списки словарей быстрее ?

Вопрос задан более трёх лет назад
1571 просмотр

3 комментария

Подписаться 1 Средний 3 комментария

ScriptKiddo @ScriptKiddo

Если хотите без доработок - попробуйте PyPy https://www.pypy.org/

Написано более трёх лет назад
xgyrfalconx @xgyrfalconx Автор вопроса

Благодарю за комментарий, к сожалению такой возможности нет.

Написано более трёх лет назад
Viktor T2 @Viktor_T2
DeepDiff
https://pypi.org/project/deepdiff/

from deepdiff import DeepDiff ddiff = DeepDiff(a, b, ignore_order=True) print(ddiff)
Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 208 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 538 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 490 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 280 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 504 просмотра
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 213 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 663 просмотра
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

Если хотите без доработок - попробуйте PyPy https://www.pypy.org/
Благодарю за комментарий, к сожалению такой возможности нет.
DeepDiff
https://pypi.org/project/deepdiff/

from deepdiff import DeepDiff ddiff = DeepDiff(a, b, ignore_order=True) print(ddiff)

Answer 1 · 2021-08-20 17:58:25

from collections import defaultdict

a = [{'a': '1', 'b': '2'},
     {'a': '1', 'b': '2'},
     {'a': '5', 'b': '7'}]
b = [{'a': '3', 'b': '4'},
     {'a': '1', 'b': '2'}]


def make_hash_table(list_of_dicts):
    hashes = defaultdict(list)

    for i, item in enumerate(list_of_dicts):
        calculated_hash = hash(frozenset(item.items()))
        hashes[calculated_hash].append(i)

    return hashes


# Считаем хеши
a_hashes = make_hash_table(a)

b_hashes = make_hash_table(b)

# Определяем через вычитание множеств каких хешей у нас нет

not_in_a = [b[b_hashes[hash_value][0]] for hash_value in b_hashes.keys() - a_hashes.keys()]

not_in_b = [a[a_hashes[hash_value][0]] for hash_value in a_hashes.keys() - b_hashes.keys()]

print('Not in a \n')
print(not_in_a)
print()
print('Not in b \n')
print(not_in_b)

OUT

Not in a 

[{'a': '3', 'b': '4'}]

Not in b 

[{'a': '5', 'b': '7'}]

Answer 2 · 2021-08-20 17:26:09

Отсортировать оба массива, сравнивая по column1, column2, column3
(функция сравнения сначала сравнивает строки из column1, при их равенстве - column2, и т.д.)
дальше можно будет за линейное время сделать сравнение, обходя параллельно оба массива.

Answer 3 · 2021-08-21 09:42:08

Я бы вам посоветовал для таких вещей использовать Pandas.
Создавайте 2 Датафрейма, и после используйте merge
Подробности всех действий можно узнать в гугле.

Как быстро сравнить огромные списки словарей?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт