Как распределить массивы данных между потоками?

Question

lemonlimelike @lemonlimelike

Python

Как распределить массивы данных между потоками?

Всем привет! Задача вроде простая, но я не понимаю как такое сотворить.
Есть два массива по 50к элементы. Нужно создать третий массив в котором будут не повторяющиеся элементы из тех двух массивов. Вообщем нужно убрать дубли. Скрипт написал, но он работает в одном потоке. И это очень долго. Как распределить эти все данные между потоками?

Вот мой код:

import pandas as pd
import json
from time import sleep
from threading import Thread


def get_data(file_name):
	df = pd.read_excel(file_name,sheet_names=0)
	data = []
	for item in df.to_records(index=False):
		data.append(item[0])

	return data


if __name__ == '__main__':
	test1 = get_data('t1.xlsx')
	test2 = get_data('t3.xlsx')

	result = []
	# with open('result.json','w') as file_json:
	
	for i,ii in enumerate(test1):
		for j,jj in enumerate(test2):
			print(i,j)
			if i == j:
				continue
			if ii.strip().lower() not in jj.strip().lower():
				if ii.strip().lower() not in result:
					result.append(ii.strip().lower())

	df = pd.DataFrame(result)
	df.to_excel('r.xlsx',index=False,header=None)
						# file_json.write(json.dumps(ii)+'\n')

Есть такая мысль как это сделать, но довести до ума не получается: длины этих двух массивов разделить на 10(кол-во потоков) а затем каким-то образом через функцию range запускать массив в каждом потоке по выбранным областям

Вопрос задан более трёх лет назад
210 просмотров

3 комментария

Подписаться 2 Простой 3 комментария

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

2 комментария

lemonlimelike @lemonlimelike Автор вопроса

Да, это то что я искал) Благодарю! Но все же хотелось бы узнать каков будет алгоритм, чтобы распределить массивы данных между потоками, как такое сделать

Написано более трёх лет назад
Dmitry @dzhebrak

lemonlimelike, есть много вариантов, но в целом:
1. разбиваете файл на N меньших файлов, например, по 100 Mb - главное, чтобы помещались в память
2. сортируете каждый файл по отдельности (например, используя multiprocessing, как было указано ранее; т.е. в каждом процессе сортируется отдельный файл)
3. читаете первые X мб из каждого файла (одновременно), объединяете прочитанное (в памяти), удаляете дубли, записываете в итоговый файл. И так до тех пор, пока не обработаете все созданные на шаге 2 файлы.

Вот для информации https://en.wikipedia.org/wiki/External_sorting#Ext...

Также на linux утилита sort - она умеет удалять дубли из больших текстовых файлов. Я обрабатывал ей без проблем файлы на несколько Гб. Да и других вариантов много

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- вчера
- 66 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 88 просмотров
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 224 просмотра
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 264 просмотра
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 168 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 148 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 268 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 155 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 146 просмотров
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 160 просмотров
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Это задача с упором в процессор, потоки тут не помогут. Используйте модуль multiprocessing
ScriptKiddo, Ну даже если задача с процессами, то как распределить массивы между процессами?
lemonlimelike, https://docs.python.org/3.8/library/multiprocessin...

Answer 1 · 2020-08-02 20:18:21

Не совсем по вашим требованиям, но вы не пробовали объединить файлы и удалить дубликаты с помощью pandas? Вероятнее всего так будет быстрее. Т.е. что-то вроде такого:

# df1 - датафрейм t1.xlsx, df2 - датафрейм t3.xlsx
df = pd.concat([df1, df2])

# перевести все нужные столбцы в нижний регистр и обрезать пробелы
# можно сделать новые столбцы с измененными данными, если исходные данные важны
df['column_name'] = df['column_name'].apply(lambda x : x.lower().strip())

# удаление дубликатов по всем столбцам
df.drop_duplicates(keep=False, inplace=True)

# удаление дубликатов по какому-то определенному столбцу
#df.drop_duplicates(subset=['letter'], inplace=True)

https://pandas.pydata.org/pandas-docs/stable/refer...

Как распределить массивы данных между потоками?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт