Почему поиск уникальных значений в двух таблицах Excel работает медленно и как сделать чтобы было быстрее?

Question

beduin01 @beduin01

Почему поиск уникальных значений в двух таблицах Excel работает медленно и как сделать чтобы было быстрее?

Есть два файла CSV в каждом по 100 тыс записей. Задача найти строки которые которые есть в первом файле, но нет во втором. Сама процедура поиска предполагается по ключу записей т.е.
Файл 1:
1
2
4
5

Файл 2:
1
2
3
4
5

Итого вывод должен быть 3 т.к. в первом файле этого ID нет, но он есть во втором.

Сейчас все делается средствами Excel. Люди жалуются на то, что подобная сверка происходит долго. На сколько долго сказать не могу. Думаю десятки минут.

Отсюда вопросы.
Почему в Excel все так медленно.
Будет ли разница в скорости если если решение сделать на C# или к примеру Python.
Будет ли профит если все выгружать в какой нить SQLite и делать его средствами?

Вопрос задан более трёх лет назад
167 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- 2 часа назад
- 41 просмотр
1

ответ
Программирование

+4 ещё

Простой
На сколько плох мой GitHub?
- 1 подписчик
- 03 июл.
- 1049 просмотров
2

ответа
Программирование

+2 ещё

Средний
Поможете собрать компьютер для запуска виртуальных машин и коддинга?
- 1 подписчик
- 02 июл.
- 636 просмотров
5

ответов
Программирование

+4 ещё

Сложный
Что делать, на QEMU всё летает, а реальный Celeron D умирает?
- 2 подписчика
- 01 июл.
- 741 просмотр
1

ответ
Программирование

+4 ещё

Простой
Выбор между изучением c++ и Golang, что изучать?
- 3 подписчика
- 09 июн.
- 1454 просмотра
10

ответов
Программирование

Простой
Как создать и использовать свою кодировку знаков?
- 1 подписчик
- 02 июн.
- 735 просмотров
4

ответа
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 324 просмотра
0

ответов
Программирование

+1 ещё

Простой
Проект для программирования?
- 2 подписчика
- 27 апр.
- 886 просмотров
9

ответов
Программирование

Простой
Олимпиадное программирование — с чего начать?
- 1 подписчик
- 18 апр.
- 607 просмотров
2

ответа
Программирование

Простой
Как управлять/хранить изображения для UI?
- 1 подписчик
- 10 апр.
- 318 просмотров
1

ответ
Показать ещё Загружается…

Хрустальный шар на профилактике, но основные причины перечислены в моём профиле. Python из коробки в 7 раз медленнее VBA, впрочем, никто не мешает вам его использовать. Такого объёма данные лучше хранить в БД.
Согласен, БД ваше всё.

ЗЫ И нормальное приложение к нему.

Answer 1 · 2018-04-06 10:38:38

igorsmi @igorsmi

Full stack web developer

Скажу коротко, если перенести всё в SQL, разница в скорости будет огромная.

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2018-04-06 18:37:03

у ёкселя есть excel power query ("редактор запросов" по-русски), как раз для таких вещей.

а если сейчас вы проверяете строки в одной таблице поиском по второй, можно сильно ускорить процесс отсортировав вторую таблицу по этой колонке, и используя поиск значения с третьим параметром (интервальный поиск) и дополнительной проверкой на совпадение потом.

в русском ёкселе это наверное что-то вроде

=ВПР(<искомое>;<таблица>;1;ИСТИНА)=<искомое>

Answer 3 · 2018-04-06 11:33:42

А ключи отсортированы?
Десятки минут даже для Excel как-то медленно.
Это как будто для каждого ключа одного файла пробегать все ключи другого.
Если взять два отсортированных списка и пройтись по ним, то недостающие ключи можно за один проход найти - это секунды для 100000 записей.

Почему поиск уникальных значений в двух таблицах Excel работает медленно и как сделать чтобы было быстрее?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт