Как увеличить скорость работы «парсера» на python?

Question

xlamys @xlamys

Python

Как увеличить скорость работы «парсера» на python?

Добрый день.
Есть скрипт на python, который разбирает csv файл из 5 столбцов и 25-30 тыс. строк.

Следовательно, в скрипте происходит итерация по файлу, выполнение кое-каких действий и запись в БД.
Такой файл скрипт разбирает за 12 минут.
Intel i7
CPython 3.3

Как можно улучшить скорость работы?

Вопрос задан более трёх лет назад
3528 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 5

3 комментария

Комментировать

6 комментариев

Alexey @cold_brain

Можно попробовать всталять сразу несколько записей INSERT INTO table_name (column1,column2,column3,...) VALUES (value1,value2,value3,...), (value1,value2,value3,...), (value1,value2,value3,...) ...;

Написано более трёх лет назад
zxmd @zxmd

@xlamys Именно как сказал @cold_brain - нужно вставлять чанками по 400-500 строк. Будет намного быстрее. А так у вас на каждую строку отрабатывает транзакция.

Написано более трёх лет назад
xlamys @xlamys Автор вопроса

Спасибо, сейчас перепишу.

Написано более трёх лет назад
Anton Kuzmichev @Assargin

С полгода назад оптимизировал операцию импорта в БД большого объема данных. Достаточно было открыть явно транзакцию в начале (и коммитить/откатывать в конце), чтобы уже получить прирост по времени в пару сотен раз.

Написано более трёх лет назад
Anton Kuzmichev @Assargin

Я был очень рад за СУБД, что снял с нее кучу бесполезной работы с неявной транзакцией на каждый запрос (таблицы то InnoDB)

Написано более трёх лет назад
sim3x @sim3x

@Assargin пишите с указанием кому пишете -- тут не stackoverflow xD
Оповещение о коменте к ответу не приходят

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Как правильно подключить prometheus к flask + gunicorn?
- 1 подписчик
- 52 минуты назад
- 24 просмотра
0

ответов
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 1 подписчик
- 15 часов назад
- 99 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 194 просмотра
1

ответ
Python

+1 ещё

Простой
Pycharm для старенького мака??
- 1 подписчик
- 18 окт.
- 187 просмотров
3

ответа
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 137 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 528 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 113 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 144 просмотра
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 537 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 144 просмотра
2

ответа
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Answer 1 · 2014-03-20 11:25:31

maxaon @maxaon

Парсер тут ни при чем. Вставляйте не по одной записи за раз а по 500 и более.

Ответ написан более трёх лет назад

3 комментария

Answer 2 · 2014-03-20 11:04:21

Вангую что... без исходников не вангуется.
Скорее всего дело не в парсинге CSV а в записе в БД.

Answer 3 · 2014-03-20 11:18:54

def unpack_csv(line):
    csv = line.split(";")
    csv_1 = csv[0]
    csv_2 = csv[1]
    ...
    return csv_1, csv_2, csv_3, csv_4, csv_5

db = pymysql.connect(host='', user='', passwd='', db='', charset='utf8')
cursor = db.cursor()
file = open('test.csv', 'r')

for line in file:
    number, date, fio, email, about = unpack_csv(line)
    sql = """INSERT INTO mydb(number, date, fio, email, about)
             VALUES ('%s','%s', '%s', '%s', '%s')
             """, (number, date, fio, email, about)
    cursor.execute(sql)
    db.commit()
db.close()
file.close()

Answer 4 · 2014-03-20 12:08:20

Ну так по одной записи вставляете
введите переменную типа сколько записей за раз вставлять keys=10000
ну пока счетчик цикла меньше то ззабивайте все данные в буфер
как только равен или больше то делаешь insert с данными
обнуляем счетчик и опять читаем строки далее
ну и в конце надо не забыть скинуть последние данные в БД

Answer 5 · 2014-03-20 12:56:12

Если записывать не по одной записи, а по 10000
Результат:
CSV файл весом в 1,3 мб (20тыс.строк)
real 8.26
user 5.25
sys 0.93
Очень круто) Всем спасибо!

Как увеличить скорость работы «парсера» на python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт