Как работать с файлом SQL объемом 20 ГБ?

Question

ubirust @ubirust

Python
SQL

Как работать с файлом SQL объемом 20 ГБ?

У меня есть база данных одной компании, которую я скачала в инете. Она весит более 20 гб. В файле скрипты на языке sql.
Я хочу произвести поиск в этой базе по номеру телефону пользователей, используя Python. Например, если есть номер в базе, то вывести имя и адрес пользователя.

Чтобы это сделать, наверное, надо сначала выполнить sql команды, чтобы сгенерировалась сама база данных.

Написал такой скрипт:

spoiler

from mysql.connector import connect, Error

# Open and parse the "par3.sql" file
with open('part3.sql', 'r', encoding="utf-8") as f:
    sql_commands = f.read()

print("Файл прочитан")

try:
    with connect(
        host="localhost",
        user="root",
        password="password",
        database="database",
    ) as connection:
        print(connection)
        with connection.cursor() as cursor:
            cursor.execute(sql_commands)
        connection.commit()
        connection.close()

except Error as e:
    print(e)

Проблема в том, что файл действительно большой и подключения разрывается. Как можно осуществить данную задачу? Есть какие-нибудь идеи?

Вопрос задан более двух лет назад
1409 просмотров

7 комментариев

Подписаться 2 Простой 7 комментариев

Дмитрий @iMedved2009

mysql -u root -ppassword database<part3.sql

Написано более двух лет назад
pfg21 @pfg21

а тебе обязательно его всего загонять в память несчастного компухтера ??
если тебе только отдельные элементы то просто поищи номера телефонов.
ибо sql это просто текстовый файл.

Написано более двух лет назад
ubirust @ubirust Автор вопроса

pfg21, мне нужно автоматизировать сбор имени и адреса пользователя. Сначала идёт ввод телефона, если есть такой номер, то выводится имя и адрес, они привязаны, как это стандартно делается (id, user_name, addres, phone_number и т.д.)

Написано более двух лет назад
Akina @Akina

Что, всё это в одной таблице? Тогда можно прямо вычитывать и парсить блоки VALUES.

А если нет, то только восстанавливать БД.

Написано более двух лет назад
mayton2019 @mayton2019

У меня есть база данных одной компании, которую я скачала в инете. Она весит более 20 гб

А ну дай ссылочку.

Написано более двух лет назад
Adamos @Adamos

Особенно забавно будет после этих мучений осознать, что в этой ворованной в интернете базе номера не нормализованы и искать произвольно набранный номер среди собранных с бору по сосенке строчек типа "+8 (4922 3-3-3333" средствами Питона просто бесполезно...

Написано более двух лет назад
pfg21 @pfg21

ubirust, если тебе просто выдернуть небольшое количество данных из sql, то я бы просто прошелся grep по файлу и пропарсил выхлоп.

Написано более двух лет назад

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Pycharm для старенького мака??
- 1 подписчик
- 21 час назад
- 141 просмотр
3

ответа
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 105 просмотров
0

ответов
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 1 подписчик
- 14 окт.
- 181 просмотр
4

ответа
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 499 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 99 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 139 просмотров
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 514 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 141 просмотр
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 119 просмотров
1

ответ
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 542 просмотра
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

а тебе обязательно его всего загонять в память несчастного компухтера ??
если тебе только отдельные элементы то просто поищи номера телефонов.
ибо sql это просто текстовый файл.
pfg21, мне нужно автоматизировать сбор имени и адреса пользователя. Сначала идёт ввод телефона, если есть такой номер, то выводится имя и адрес, они привязаны, как это стандартно делается (id, user_name, addres, phone_number и т.д.)
Что, всё это в одной таблице? Тогда можно прямо вычитывать и парсить блоки VALUES.

А если нет, то только восстанавливать БД.
У меня есть база данных одной компании, которую я скачала в инете. Она весит более 20 гб

А ну дай ссылочку.
Особенно забавно будет после этих мучений осознать, что в этой ворованной в интернете базе номера не нормализованы и искать произвольно набранный номер среди собранных с бору по сосенке строчек типа "+8 (4922 3-3-3333" средствами Питона просто бесполезно...
ubirust, если тебе просто выдернуть небольшое количество данных из sql, то я бы просто прошелся grep по файлу и пропарсил выхлоп.

Answer 1 · 2023-01-09 16:52:09

Вы выбрали плохой путь по ряду причин.
Во-первых, вы пытаетесь вычитать весь 20гб файл в оперативную память. Это будет долго, отожрёт кучу свопа и не факт. что завршится успешно.
Во-вторых, вы пытаетесь запустить весь SQL за один раз - это вы правильно поняли.ч то проблематично.
Ну а в-третьих...
В общем, следует глазами посмотреть в SQL и понять что там. Если там дамп БД, то сперва идут стейтменты для содания таблиц, индексов, хранимок, а потом уже операции вставки в эти таблицы.
Ваш файл называется "часть 3", так что, возможно, часть нужных стейтментов для создания структур просто оказались в других фвйлах.
Обычно кусок SQL, который создаст все таблицы, не так уж и велик по размеру. Можно открыть файлы с дампом текстовым редактором и вытащить оттуда куски SQL из начала с созданием структуры. Положить эти кусуи в отдельный файл. Иногда в SQL-файле с дампом лежит и команда создания базы, посмотрите внимательно.

Когда у вас операции вставки данных в БД в отдельном огромном файле, всё тсановится чуточку проще.
Если у вас задача одноразовая и нужно просто найти один номер и больше ничего, то можно просто воспользоваться командой grep на SQL файле. Она поищет нужный номер и покажет строчки, в которой он встретился. Параметры командной строки могут настроить выхлоп так, чтобы показывались несколько строчек. Это, возможно пригодится, если отдельные стейтменты со вставками занимают по много строк. Так можно быстро найти нужные данные не возясь с поднятием БД.

Если задача более-менее систематическая, то, конечно, лучше выполнить SQL и занести все данные в БД. Для этого имеет смысл воспользоваться стандартными утилитами, а не городить такой вот велосипед с квадратными колёсами.
Если описанные действия нужно проделывать в рамках какого-то более широкого автоматизированного процесса, а не одноразово руками, то можно тулзы для БД запускать и из питона, просто системным вызовом консольной команды.

Answer 2 · 2023-01-09 19:12:27

В комментариях выше фиксируются следующие факты:

используемая СУБД - MySQL
(вероятно) дамп - MySQL либо MariaDB
дамп поделен на несколько частей
задача - периодическая

Соответственно некоторые соображения в дополнение к сказанному ранее.

Если дамп выполнялся штатной утилитой (вряд ли иначе), то он содержит кучу комментариев, которые позволяют без особых проблем поделить дамп на отдельные файлы - дамп только структуры и дамп только данных. Даже в автоматическом режиме (программно), и уж тем более вручную. Поскольку нужны данные только по пользователям, то после описанного выше разделения можно безболезненно вырезать всё ненужное из дампа структуры (лишние таблицы, всякие процедуры-функции-триггеры, индексы и внешние ключи - всё это нафиг не нужно при восстановлении, а если нужно для эффективности выборки, лучше создать индексы после заливки данных), а также просто убрать дампы данных ненужных таблиц. И скорее всего объём информации для восстановления после такой чистки уменьшится на порядок, а то и больше.

Answer 3 · 2023-01-09 16:30:07

Как уже подсказывают, заливать лучше утилитами базы данных.
Ну и если никак, то коммитьте порциями, например по 1000 записей., а не все сразу

Answer 4 · 2023-01-09 17:16:55

Маленькое уточнение к предыдущим ораторам, ответы которых дают целый спектр годных решений.

Вполне возможно что таблица которая вам нужна (пользователи?) не занимает много места и, на самом деле, является лишь малой частью файла, а остальное ненужные данные. Стоит проверить данный тезис и далее выделить в отдельный файл скрипт загрузки только этой таблицы. Как работать с этим куском уже дело вкуса - искать как в файле или импортировать в бд. ИМХО бд в этом плане удобнее и практичнее.

Как работать с файлом SQL объемом 20 ГБ?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт