Причины рандомных падений кода с использование multiprocessing?

Question

Михаил Пугач @Vollirik_M

Данные анализирую, немного питонирую

Python

Причины рандомных падений кода с использование multiprocessing?

Друзья, привет!
По работе от коллеги достался скрипт на Python, который использует библиотеку multiprocessing. Кратко, этот скрипт делает следующее: 1) обращается к файлу .xlsx, путь к которому указан в коде, и читает его; 2) логинится в корпоративный Sharepoint; 3) Загружает батчами по n строк данные из файла в Sharepoint.

При выполнении данного скрипта рандомным образом появляется ошибка вида:

Exception in thread Thread-11 (_handle_results):
Traceback (most recent call last):
File "D:\Python\Lib\threading.py", line 1045, in _bootstrap_inner
self.run()
File "D:\Python\Lib\threading.py", line 982, in run
self._target(*self._args, **self._kwargs)
File "D:\Python\Lib\multiprocessing\pool.py", line 579, in _handle_results
task = get()
^^^^^
File "D:\Python\Lib\multiprocessing\connection.py", line 251, in recv
return _ForkingPickler.loads(buf.getbuffer())
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "D:\Python\Lib\site-packages\office365\runtime\client_request_exception.py", line 7, in __init__
content_type = self.response.headers.get('Content-Type', '').lower().split(';')[0]
^^^^^^^^^^^^^^^^^^^^^
AttributeError: 'NoneType' object has no attribute 'headers'

Она может появиться как сразу после запуска кода, так и не реализоваться вовсе, либо произойти в любой момент в процессе. Закономерности возникновения нет, происходит как на моем корпоративном ноутбуке, так и на персональном ПК. У коллеги с такой конфигурацией железа и версиями Python и всех библиотек такая ошибка не реализуется.

Сам код:

import numpy as np
import pandas as pd
import time
from tqdm import tqdm
import multiprocessing
from multiprocessing import Pool
from connection import Sharepoint

site = Sharepoint()
processes = multiprocessing.cpu_count()

data_file = 'C:/Users/micha/OneDrive/Текущая работа/routeList update/ShopList_Data_2023-11.xlsx'

df = pd.read_excel(data_file, usecols=[
                   'Route', 'ID SAP', 'Address', 'Name', 'Business', 'Chain'])

df_list = df.to_dict(orient='records')
df_splits = np.array_split(df_list, 1 + len(df_list) // 2000)


def load_new_items(iters):

    sharepoint_list = site.ctx.web.lists.get_by_title('routeList')

    for record in iters:
        sharepoint_list.add_item({'Title': record['Route'],
                                  'field_1': str(record['ID SAP']),
                                  'field_2': record['Address'],
                                  'field_3': str(record['Name']),
                                  'Business': record['Business'],
                                  'Chain': record['Chain'],
                                  })
    site.ctx.execute_batch(items_per_batch=100)


if __name__ == '__main__':

    start = time.perf_counter()

    rows = 0
    for part in df_splits:

        start_part = time.perf_counter()

        splits = np.array_split(part, processes)
        iterator = [list(i) for i in splits]

        with Pool(processes=processes) as pool:
            pool.map(load_new_items, iterator)

        rows += len(part)
        time_part = round(time.perf_counter() - start_part, 0)
        total_time = int(round(time.perf_counter() - start, 0))
        timeout = 15.0 if time_part < 40.0 else 15.0 + time_part - 40.0

        print(f'\nЗагружено {rows} строк из {len(df_list)}')
        print(f'Time (part): {time_part} sec')
        print(
            f'Time (total): {total_time//60} min {round(total_time % 60, 0)} sec')
        print(f'Timeout: {round(timeout, 0)} sec\n')

        if part is not df_splits[-1]:
            time.sleep(timeout)

Модуль connection используется логично для подключения к Sharepoint:

from office365.runtime.auth.user_credential import UserCredential
from office365.sharepoint.client_context import ClientContext


class Sharepoint():

   def __init__(self):
      self.USERNAME = "***"
      self.PASSWORD = "***"
      self.SHAREPOINT_URL = "https://***.sharepoint.com"
      self.SHAREPOINT_SITE = "https://***.sharepoint.com/teams/***"

      self.ctx = ClientContext(self.SHAREPOINT_SITE).with_credentials(UserCredential(self.USERNAME, self.PASSWORD))


   def get_list(self, listname: str):
      return self.ctx.web.lists.get_by_title(listname)

Вопрос - что я делаю не так?

Вопрос задан более двух лет назад
238 просмотров

9 комментариев

Подписаться 3 Простой 9 комментариев

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

4 комментария

Михаил Пугач @Vollirik_M Автор вопроса

была такая мысль, есть вариант поправить?

Написано более двух лет назад
Сергей Горностаев @sergey-gornostaev Куратор тега Python

Михаил Пугач, лучше всего разобраться почему он так делает и поправить на стороне Sharepoint'а, но можно и в библиотеке office365 сделать доработку, чтобы она учитывала отсутствие ответа.

Написано более двух лет назад
Михаил Пугач @Vollirik_M Автор вопроса

Сергей Горностаев, так как я достаточно начинающий польхователь Python, то дадите более подробный совет, как доработать office365? Настройку Sharepont произвести вряд ли получится.

Написано более двух лет назад
Сергей Горностаев @sergey-gornostaev Куратор тега Python

Михаил Пугач, надо найти место, где делается запрос, и добавить туда проверку статуса ответа. Что именно делать с неуспешными статусами - вам виднее. Например можно выбрасывать специфическое исключение, перехватывать его в прикладном коде и делать повторную попытку отправить данные.

Написано более двух лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 101 просмотр
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 164 просмотра
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 214 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 142 просмотра
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 139 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 106 просмотров
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 253 просмотра
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 299 просмотров
1

ответ
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 164 просмотра
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 278 просмотров
0

ответов
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Оформите код соответствующим тегом!
Вопрос надо оформлять правильно.
И падает не рандомно, а логично и мультипроцессинг тут не причем. у None нет никаких атрбутов. надо делать проверки
Влад Григорьев, дело не в валидности данных, этот же файл этим же кодом загружается корректно от начала до конца, а при повторном запуске тут же падает. на других библиотеках для конкурентной загрузки проблемы нет, но скорость крайне низкая.
Михаил Пугач, вместо ответа вы получили ничего, что не есть страшно, надо просто этот запрос повторять или скипать
Попробуйте перенести эту строку site = Sharepoint() в функцию load_new_items
va_k, сделал и проверил на двух пулах загрузки по 60 000 строк на двух разных ПК. Работает) и как я сам не догадался, спасибо!

Answer 1 · 2023-11-28 10:37:44

Сергей Горностаев @sergey-gornostaev Куратор тега Python

Седой и строгий

Выглядит так, будто Sharepoint иногда не отвечает.

Ответ написан более двух лет назад

4 комментария

Причины рандомных падений кода с использование multiprocessing?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт