Причины рандомных падений кода с использование multiprocessing?

Question

Михаил Пугач @Vollirik_M

Данные анализирую, немного питонирую

Python

Причины рандомных падений кода с использование multiprocessing?

Друзья, привет!
По работе от коллеги достался скрипт на Python, который использует библиотеку multiprocessing. Кратко, этот скрипт делает следующее: 1) обращается к файлу .xlsx, путь к которому указан в коде, и читает его; 2) логинится в корпоративный Sharepoint; 3) Загружает батчами по n строк данные из файла в Sharepoint.

При выполнении данного скрипта рандомным образом появляется ошибка вида:

Exception in thread Thread-11 (_handle_results):
Traceback (most recent call last):
File "D:\Python\Lib\threading.py", line 1045, in _bootstrap_inner
self.run()
File "D:\Python\Lib\threading.py", line 982, in run
self._target(*self._args, **self._kwargs)
File "D:\Python\Lib\multiprocessing\pool.py", line 579, in _handle_results
task = get()
^^^^^
File "D:\Python\Lib\multiprocessing\connection.py", line 251, in recv
return _ForkingPickler.loads(buf.getbuffer())
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "D:\Python\Lib\site-packages\office365\runtime\client_request_exception.py", line 7, in __init__
content_type = self.response.headers.get('Content-Type', '').lower().split(';')[0]
^^^^^^^^^^^^^^^^^^^^^
AttributeError: 'NoneType' object has no attribute 'headers'

Она может появиться как сразу после запуска кода, так и не реализоваться вовсе, либо произойти в любой момент в процессе. Закономерности возникновения нет, происходит как на моем корпоративном ноутбуке, так и на персональном ПК. У коллеги с такой конфигурацией железа и версиями Python и всех библиотек такая ошибка не реализуется.

Сам код:

import numpy as np
import pandas as pd
import time
from tqdm import tqdm
import multiprocessing
from multiprocessing import Pool
from connection import Sharepoint

site = Sharepoint()
processes = multiprocessing.cpu_count()

data_file = 'C:/Users/micha/OneDrive/Текущая работа/routeList update/ShopList_Data_2023-11.xlsx'

df = pd.read_excel(data_file, usecols=[
                   'Route', 'ID SAP', 'Address', 'Name', 'Business', 'Chain'])

df_list = df.to_dict(orient='records')
df_splits = np.array_split(df_list, 1 + len(df_list) // 2000)


def load_new_items(iters):

    sharepoint_list = site.ctx.web.lists.get_by_title('routeList')

    for record in iters:
        sharepoint_list.add_item({'Title': record['Route'],
                                  'field_1': str(record['ID SAP']),
                                  'field_2': record['Address'],
                                  'field_3': str(record['Name']),
                                  'Business': record['Business'],
                                  'Chain': record['Chain'],
                                  })
    site.ctx.execute_batch(items_per_batch=100)


if __name__ == '__main__':

    start = time.perf_counter()

    rows = 0
    for part in df_splits:

        start_part = time.perf_counter()

        splits = np.array_split(part, processes)
        iterator = [list(i) for i in splits]

        with Pool(processes=processes) as pool:
            pool.map(load_new_items, iterator)

        rows += len(part)
        time_part = round(time.perf_counter() - start_part, 0)
        total_time = int(round(time.perf_counter() - start, 0))
        timeout = 15.0 if time_part < 40.0 else 15.0 + time_part - 40.0

        print(f'\nЗагружено {rows} строк из {len(df_list)}')
        print(f'Time (part): {time_part} sec')
        print(
            f'Time (total): {total_time//60} min {round(total_time % 60, 0)} sec')
        print(f'Timeout: {round(timeout, 0)} sec\n')

        if part is not df_splits[-1]:
            time.sleep(timeout)

Модуль connection используется логично для подключения к Sharepoint:

from office365.runtime.auth.user_credential import UserCredential
from office365.sharepoint.client_context import ClientContext


class Sharepoint():

   def __init__(self):
      self.USERNAME = "***"
      self.PASSWORD = "***"
      self.SHAREPOINT_URL = "https://***.sharepoint.com"
      self.SHAREPOINT_SITE = "https://***.sharepoint.com/teams/***"

      self.ctx = ClientContext(self.SHAREPOINT_SITE).with_credentials(UserCredential(self.USERNAME, self.PASSWORD))


   def get_list(self, listname: str):
      return self.ctx.web.lists.get_by_title(listname)

Вопрос - что я делаю не так?

Вопрос задан более года назад
235 просмотров

9 комментариев

Подписаться 3 Простой 9 комментариев

Михаил Р. @Mike_Ro Куратор тега Python

Оформите код соответствующим тегом!

Написано более года назад
Влад Григорьев @Vaindante

Вопрос надо оформлять правильно.
И падает не рандомно, а логично и мультипроцессинг тут не причем. у None нет никаких атрбутов. надо делать проверки

Написано более года назад
Михаил Пугач @Vollirik_M Автор вопроса

Михаил Р., подскажете, как?

Написано более года назад
Михаил Пугач @Vollirik_M Автор вопроса

Влад Григорьев, дело не в валидности данных, этот же файл этим же кодом загружается корректно от начала до конца, а при повторном запуске тут же падает. на других библиотеках для конкурентной загрузки проблемы нет, но скорость крайне низкая.

Написано более года назад
Михаил Р. @Mike_Ro Куратор тега Python

Михаил Пугач,

Написано более года назад
Влад Григорьев @Vaindante

Михаил Пугач, вместо ответа вы получили ничего, что не есть страшно, надо просто этот запрос повторять или скипать

Написано более года назад
Михаил Пугач @Vollirik_M Автор вопроса

Михаил Р., Спасибо, сделано =)

Написано более года назад
va_k @va_k

Попробуйте перенести эту строку site = Sharepoint() в функцию load_new_items

Написано более года назад
Михаил Пугач @Vollirik_M Автор вопроса

va_k, сделал и проверил на двух пулах загрузки по 60 000 строк на двух разных ПК. Работает) и как я сам не догадался, спасибо!

Написано более года назад

Решения вопроса 1

4 комментария

Михаил Пугач @Vollirik_M Автор вопроса

была такая мысль, есть вариант поправить?

Написано более года назад
Сергей Горностаев @sergey-gornostaev Куратор тега Python

Михаил Пугач, лучше всего разобраться почему он так делает и поправить на стороне Sharepoint'а, но можно и в библиотеке office365 сделать доработку, чтобы она учитывала отсутствие ответа.

Написано более года назад
Михаил Пугач @Vollirik_M Автор вопроса

Сергей Горностаев, так как я достаточно начинающий польхователь Python, то дадите более подробный совет, как доработать office365? Настройку Sharepont произвести вряд ли получится.

Написано более года назад
Сергей Горностаев @sergey-gornostaev Куратор тега Python

Михаил Пугач, надо найти место, где делается запрос, и добавить туда проверку статуса ответа. Что именно делать с неуспешными статусами - вам виднее. Например можно выбрасывать специфическое исключение, перехватывать его в прикладном коде и делать повторную попытку отправить данные.

Написано более года назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как создать task в __init__ asyncio?
- 1 подписчик
- вчера
- 316 просмотров
1

ответ
Python

Простой
Какой способ эффективнее при объединении двух словарей?
- нет подписчиков
- 06 мая
- 219 просмотров
1

ответ
Python

Простой
Автоматизация входа на устройство через Jumphost с целью передачи команд?
- 1 подписчик
- 06 мая
- 96 просмотров
1

ответ
Python

+1 ещё

Простой
В ffmpeg неправильно считывается имя пользователя, он видит в нем цифру и начинает ее раскладывать, как пофиксить?
- 1 подписчик
- 06 мая
- 129 просмотров
1

ответ
Python

+2 ещё

Средний
Бот долго отвечает сообщением, где фото+текст. Как исправить?
- 1 подписчик
- 05 мая
- 188 просмотров
1

ответ
Python

Простой
Как добавить в дату, записанную в строке, нули перед месяцем и днём?
- 1 подписчик
- 05 мая
- 173 просмотра
4

ответа
Python

Простой
Как завершить работу консольного приложения?
- 1 подписчик
- 04 мая
- 187 просмотров
1

ответ
Python

+1 ещё

Средний
В Coqui TTS есть поддержка русского языка для озвучки текста?
- 1 подписчик
- 04 мая
- 82 просмотра
1

ответ
Python

Простой
Как запустить VapourSynth-Editor?
- 1 подписчик
- 03 мая
- 81 просмотр
0

ответов
Python

Простой
Почему ошибка в терминале?
- 1 подписчик
- 03 мая
- 159 просмотров
0

ответов
Показать ещё Загружается…

Python-разработчик

BCraft

от 2 000 до 3 500 $

Python разработчик Senior

Туроператор «Русь» • Москва

от 200 000 до 300 000 ₽

Python разработчик

DevTeam.Space • Москва

от 1 500 до 3 000 $

Оформите код соответствующим тегом!
Вопрос надо оформлять правильно.
И падает не рандомно, а логично и мультипроцессинг тут не причем. у None нет никаких атрбутов. надо делать проверки
Влад Григорьев, дело не в валидности данных, этот же файл этим же кодом загружается корректно от начала до конца, а при повторном запуске тут же падает. на других библиотеках для конкурентной загрузки проблемы нет, но скорость крайне низкая.
Михаил Пугач, вместо ответа вы получили ничего, что не есть страшно, надо просто этот запрос повторять или скипать
Попробуйте перенести эту строку site = Sharepoint() в функцию load_new_items
va_k, сделал и проверил на двух пулах загрузки по 60 000 строк на двух разных ПК. Работает) и как я сам не догадался, спасибо!

Answer 1 · 2023-11-28 10:37:44

Сергей Горностаев @sergey-gornostaev Куратор тега Python

Седой и строгий

Выглядит так, будто Sharepoint иногда не отвечает.

Ответ написан более года назад

4 комментария

Причины рандомных падений кода с использование multiprocessing?

Войдите, чтобы написать ответ

Как создать task в init asyncio?

Какой способ эффективнее при объединении двух словарей?

Автоматизация входа на устройство через Jumphost с целью передачи команд?

В ffmpeg неправильно считывается имя пользователя, он видит в нем цифру и начинает ее раскладывать, как пофиксить?

Бот долго отвечает сообщением, где фото+текст. Как исправить?

Как добавить в дату, записанную в строке, нули перед месяцем и днём?

Как завершить работу консольного приложения?

В Coqui TTS есть поддержка русского языка для озвучки текста?

Как запустить VapourSynth-Editor?

Почему ошибка в терминале?

Минуточку внимания

Причины рандомных падений кода с использование multiprocessing?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт