Поиск по большим файлам python?

Question

iddimon3 @iddimon3

Python

Поиск по большим файлам python?

Ситуация такая: Есть большой файл весом 2гб.

Нужно вытаскивать от туда данные используя python.
Линейный поиск не подходит, сделал бинарный поиск по id, но самый главный недостаток, что можно искать только по этому id. Я хочу искать по содержимому в строке.
Хочу +- такую же скорость как от бинарного поиска, как это можно реализовать?

Вопрос задан более двух лет назад
384 просмотра

4 комментария

Подписаться 3 Простой 4 комментария

Dmitrii @dima20155

Опишите подробнее что за id, что храните в файле, что ищите. Всегда можно искать в несколько потоков (есть нюансы)/процессов, что кратно может ускорить поиск.

Написано более двух лет назад
iddimon3 @iddimon3 Автор вопроса

Dmitrii, Ну вот пример данных:

id;name;phone;price
1;Игорь;79287777777;20
2; Дмитрий;79287777888;25

Хочу находить к примеру по имени и прайсу: Дмитрий;25

Написано более двух лет назад
Сергей Горностаев @sergey-gornostaev Куратор тега Python

iddimon3, проще всего перевести файл в базу SQLite с индексами.

Написано более двух лет назад
va_k @va_k

Как вы сделали бинарный поиск по текстовому файлу? Можете таким же образом сделать бинарный поиск и по текстовым полям.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- вчера
- 93 просмотра
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 148 просмотров
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 213 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 140 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 135 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 106 просмотров
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 251 просмотр
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 294 просмотра
1

ответ
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 189 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 162 просмотра
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Опишите подробнее что за id, что храните в файле, что ищите. Всегда можно искать в несколько потоков (есть нюансы)/процессов, что кратно может ускорить поиск.
Dmitrii, Ну вот пример данных:

id;name;phone;price
1;Игорь;79287777777;20
2; Дмитрий;79287777888;25

Хочу находить к примеру по имени и прайсу: Дмитрий;25
iddimon3, проще всего перевести файл в базу SQLite с индексами.
Как вы сделали бинарный поиск по текстовому файлу? Можете таким же образом сделать бинарный поиск и по текстовым полям.

Answer 1 · 2023-08-18 18:48:21

Ну если файл 2гб чем pandas то не устраивает, можно еще и pandas ускорить использовать polars, у него схожий синтакс c pandas но поддерживает параллельное выполнение. Что для pandas что для polars такие выборки это будет одна коротенькая строчка кода.

2гб не проблема в память загрузить, но и если бы файл был на много больше и pandas и polars поддерживают чтение файлов по частям. Вообще если нужна серьезная скорость, polars ,будет номер один там не numpy массив, а Rust Arrow. Не факт что тут polars нужен, ну вот глянь https://www.makeuseof.com/pandas-vs-polars-which-i... на сколько pandas быстрый, но polars выборка рядов по условию в 5 раз быстрее, а например применение функции, к столбцу или фрейму в 30 раз быстрее.

Answer 2 · 2023-08-18 19:26:53

Хочу +- такую же скорость как от бинарного поиска, как это можно реализовать?

Никак, у бинарного поиска высокая скорость поиска за счет того, что всё отсортировано. В произвольном массиве такого не достичь.

Answer 3 · 2023-08-19 11:16:22

1) Ну. Как бы я делал. Наверное проще загрузить это в SQLite и проиндексировать. Как то так.

file.csv

id;name;phone;price
1;Игорь;79287777777;20
2; Дмитрий;79287777888;25
...

В базе

sqlite> create table tab1(id text,name text,phone text,price text);
sqlite> .mode csv
sqlite> .separator ";"
sqlite> .headers off
sqlite> .import file.csv tab1

Это одноразовая операция и ее можно сделать вручную.
Желательно создать композитный индекс по 2 полям
sqlite> create index idx1 on tab1(name,price);
А дальше из python подключиться к SQLite и гонять запросы вида

SELECT * from tab1 WHER name='Игорь' AND price='20'

2) Можно еще придумать сценарий с загрузкой таблицы в Python dictionary но это наверное
увеличит нагрузку на память. Может вместо 2Гб будет 10Гб. Who knows! Вобщем это повод для
экспериментов с замером памяти. Кроме того dictionary жестко нас привяжет к полям name + price
и это будет неудобно.

Поиск по большим файлам python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт