Как работать с массивом быстрее?

Question

Ternick @Ternick

Python

Как работать с массивом быстрее?

Доброго времени суток)

Задача предельно проста, есть 1 большой файл в котором записаны данные, разделённые знаком '|', нужно убрать строки в которых повторяются данные.

Как пример, входной файл:

CLICK

alter|15|25|46
...
alter|19|1|28

На выходе должно получится что-то такое:

CLICK

alter|15|25|46

Мой вариант решения данной задачи:

CODE

domens = []
unically_data = []

def main():
	with open("testdatabase.txt") as f:
		data = list(map(lambda x: x.split("|"), f.read().strip().split("\n")))

	for item in data:
		if item[0] not in domens:
			domens.append(item[0])
			unically_data.append(item)


	with open("_out.txt", "w") as f:
		f.write("\n".join(["|".join(i) for i in unically_data]))

if __name__ == '__main__':
	main()

Проблема в том, что в первоначальном файле очень много строк, около 2х миллионов. Даже если использовать библиотеку threading, особо ничего не меняется. Возможно ли как-то ускорить эту задачу ?

Вопрос задан более трёх лет назад
229 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Решения вопроса 1

9 комментариев

Ternick @Ternick Автор вопроса

Он до этой части даже не доходит, где нужно собрать строку)

Как вариант просто использовать сложение строк, без ещё одного for.

Numpy, нужно изучить ещё.

Спасибо.

Написано более трёх лет назад
Илья Рябыкин @geesoff
выдаёт ваш результат:

import numpy as np data = np.genfromtxt("testdatabase.txt", delimiter="|", dtype='str') unique_keys, indices = np.unique(data[:,0], return_index=True) print(data[indices])

соберите в строки и велл-дан :)
Написано более трёх лет назад
Илья Рябыкин @geesoff

сорри, импорт забыл указать, дописал)

Написано более трёх лет назад
Ternick @Ternick Автор вопроса

Илья Рябыкин, Да ничего, я понимаю, что np => numpy) Спасибо большое за ваш ответ =)

Написано более трёх лет назад
Ternick @Ternick Автор вопроса

Илья Рябыкин, В этот раз оперативы не хватило, у меня всего 4гб)

Написано более трёх лет назад
Ternick @Ternick Автор вопроса

Илья Рябыкин, Завтра на другом компьютере по тестирую, а случайно не знаете решение для C# ?

Написано более трёх лет назад
Ternick @Ternick Автор вопроса

MinTnt, в питоне потоки очень сомнительная штука на самом деле, я не уверен что ими можно решить этот вопрос.

Написано более трёх лет назад
Илья Рябыкин @geesoff

не знаю решения на нём)
хых, у меня 16 Гб, проблем не заметил). код, который с нампи на 3+ млн строк у меня обработался секунд за 15 (но там было мало уникальных строк)

если это единоразовая операция - можете мне скинуть исходный файл, я вам результат верну)

Написано более трёх лет назад
Ternick @Ternick Автор вопроса

Илья Рябыкин, Спасибо, днем на другой машине запущу, там 32гб, думаю хватит =) сейчас смотрю что-то похожее на c#

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

11 комментариев

Ternick @Ternick Автор вопроса

Я знаю все про потоки в питоне, в комментариях к основному ответу я уже упоминал, что не уверен, что потоки могут помочь

Написано более трёх лет назад
Hemul GM @HemulGM Куратор тега Python

Ternick, если ты разделишь обработку файла через потоки, то это как бы ускорит обработку.

Написано более трёх лет назад
Ternick @Ternick Автор вопроса

Hemul GM, не обязательно разделять обработку файла, можно прочитать файл в основном потоке, а потом разделить прочитанные данные. Это мероприятие может и ускорит работу, но не факт, что до нужного уровня.

Написано более трёх лет назад
Hemul GM @HemulGM Куратор тега Python

Ternick, что не обязательно? Делать проще, чем ты предлагаешь?
Создаешь функцию, которая принимает на вход отведенную ей часть в виде индексов строк (Например, 0 и 100) и файл. Запускаешь каждый метод в отдельном "питоновском потоке". Таким образом ты можешь сколько угодно распараллелить обработку. А если вместо потоков использовать процессы, то и ещё сильнее ускорится работа. И без переделки кода.

Написано более трёх лет назад
Hemul GM @HemulGM Куратор тега Python

Ternick, другой вопрос, что на питоне это делать как бы не разумно. Быстрее и эффективнее сделать на нормальном языке.

Написано более трёх лет назад
Ternick @Ternick Автор вопроса

Hemul GM, третий вопрос, как бы с чего это вас начинает волновать, практически любая задача может быть решена на любом языке.

Написано более трёх лет назад
Hemul GM @HemulGM Куратор тега Python

Ternick, так вопрос в эффективности выполнения работы

Написано более трёх лет назад
Ternick @Ternick Автор вопроса

Hemul GM, вопрос в адекватной скорости решения вопроса, какая только возможна средствами этого языка

Написано более трёх лет назад
MinTnt @MinTnt

Hemul GM, вообще, я вчера рассмотрел варянт потоков, и это не очень подходит его задачи. Ему нужно получать первое уникальное значение строки. А из-за потоков, оно может сначала добавить в список, то что шло ближе, относительно выполнения, а не в полной картине файла

Написано более трёх лет назад
Hemul GM @HemulGM Куратор тега Python

MinTnt, при чем тут это? Если твоё решение было не удачным, это не значит, что нельзя сделать иначе. Я делал такой подход. Разделял чтение файла по разным потокам. Каждый поток читал свою часть данных. Делить нужно на области. Я не просто так привел пример с функцией, которая принимает диапазон строк от 0 до 100.
В начале алгоритма читаем, сколько строк в файле. Далее, разбиваем эти строки на несколько частей. если в файле 1000 строк, то если делить на 5 потоков, то один поток будет обрабатывать строки от 0 до 199, второй поток от 200 до 399, тертий поток от 400 до 599, четвертый от 600 до 799, ну и пятый - от 800 до 999.

Алгоритм понятен?

Написано более трёх лет назад
MinTnt @MinTnt

Hemul GM, я тебе про твой алгоритм выше и описал, у меня мысли идентичные были.

Но допустим на примере. К примеру в первом промежутке 0:100 слово исключение находится на 98 позиции. А во втором промежутке 101:200 на 2ой позиции.

По итогу в новом списке запишется значение со второго потока, но по сути задачи, нужно чтоб первым и единным было значение с первого потока.

Надеюсь понятно объяснил.

Написано более трёх лет назад

3 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Pycharm для старенького мака??
- 1 подписчик
- 4 часа назад
- 72 просмотра
2

ответа
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- вчера
- 98 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 478 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 93 просмотра
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 138 просмотров
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 510 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 141 просмотр
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 119 просмотров
1

ответ
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 535 просмотров
1

ответ
Python

+1 ещё

Средний
Как парсить фотографии gspread?
- 1 подписчик
- 06 окт.
- 185 просмотров
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Приветствую, а можно как для примера 10 строчек, просто задача простая, но заинтересовала.

И ещё, интересно, фильтрация лишь по первому слову?
MinTnt, да фильтрация лишь по первому слову. В целом можете сами сгенерировать по примеру в вопросе, 10 строк это мало чтобы что-то понять)

Answer 1 · 2021-03-03 00:59:50

касаемо вашего кода:
это, я думаю, лучше сразу в цикле собирать для каждого item, а то Вы запускаете доп цикл для доп. обработки
"\n".join(["|".join(i) for i in unically_data])

threading нужно ещё правильно использовать чтобы ускорить работу)
попробуйте использовать библиотеку numpy и выполнять преобразования с помощью её функций, она под это заточена

если думать про алгоритм, то для меня он такой (судя по коду и примерам):
1. найти строки, где item[0] встречается впервые
2. собрать из них результирующий массив данных

Answer 2 · 2021-03-03 08:26:33

Даже если использовать библиотеку threading, особо ничего не меняется. Возможно ли как-то ускорить эту задачу ?

Просто запихнув цикл в "поток" работу не ускорит, а даже замедлит. Тебе нужно разделить обработку файла.
Например, на 4 части. 1 поток обрабатывает 1 часть строк файла, 2 поток 2 ую часть файла и т.д.

Только питон и потоки в принципе - так себе комбинация

Answer 3 · 2021-03-03 12:06:51

Andrey Dugin @adugin Куратор тега Python

Выполняется менее чем за секунду:

import pandas as pd

pd.read_csv('input.txt', sep='|', header=None).drop_duplicates(0).to_csv('output.txt', sep='|', header=False, index=False)

Ответ написан более трёх лет назад

3 комментария

Как работать с массивом быстрее?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт