Многопоточная работа с одним файлом, как лучше сделать?

Question

ZIK1337 @ZIK1337

Python

Многопоточная работа с одним файлом, как лучше сделать?

Есть файл, требуется, чтобы первый поток брал первую строку, следующий - вторую и т.д., пока файл не кончится. Ограничение на потоки конечно есть, то есть если файл из 1000 строк, максимум потоков 200, то когда 200 потоков уже работают, новые строки не брать, пока хотя бы один поток не завершит работу, и соответственно следующий поток берет уже 201-ю строку.

А в другом случае нужно брать рандомную строку из файла, и если файл кончился (допустим 200 строк и 200 потоков уже работают), то следующий поток ожидает, пока какой-то поток не завершит работу, и после этого берет освобожденную строку файла.

Какими способами это лучше организовать?

Вопрос задан более трёх лет назад
664 просмотра

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

4 комментария

Сергей Горностаев @sergey-gornostaev Куратор тега Python

открыть как stream

Чего?

влезть в абсолютно любую его часть

В случае SSD есть шанс не получить проседания производительности, просто уперевшись в ограничения котроллера и не получив пользы от многопоточности. В случае обычных жёстких дисков получите дополнительные издержки на позиционирование головки, которую будут отбирать друг у друга потоки, пытающиеся читать из разных участков файла.

Написано более трёх лет назад
acwartz @acwartz

Сергей Горностаев,

Чего?

File Stream, или питон с таким не знаком?

В случае SSD есть шанс не получить проседания производительности, просто уперевшись в ограничения котроллера и не получив пользы от многопоточности. В случае обычных жёстких дисков получите дополнительные издержки на позиционирование головки, которую будут отбирать друг у друга потоки, пытающиеся читать из разных участков файла.

Поднять файл в память или реализовать раздатчик, читать будет один от сих до сих, и выдавать порцию потоку-обработчику и сразу же его запускать. В то время как файл будет прочитан, он будет уже почти весь обработан. В случае с SSD можно и 2 читающих потока организовать, контроллер проглотит и не подавится а время обработки x2.

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev Куратор тега Python

acwartz,

File Stream.

Можете показать пример того, как file stream открыть в Python?

Поднять файл в память

Вариант, если файл небольшой.

Написано более трёх лет назад
acwartz @acwartz
Сергей Горностаев,
коробочный пакет io и реализует те самые стримы

f = open("10gb.txt",'rb+') проверять на seekable если да, прыгать seek'ом по файлу, нет - страдать последовательно.

кроме того стандартный класс умеет в буферное чтение:

io.open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)

просто текст в бинарном режиме открывается и потопали....
Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 208 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 541 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 491 просмотр
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 280 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 505 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 663 просмотра
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2020-11-03 10:27:40

Такое кол-во потоков избыточно. Файл можно открыть как stream и влезть в абсолютно любую его часть, таким образом работать с ним как с массивом байт разбитым на блоки.

Вот и поделите размер в байтах на N потоков и передайте эти смещения потокам. Первый читает с нуля и признает конец строки равный nul-символу/либо иной другой line-ending типа LF/CRLF, остальные ищут #0 от начала блока и начинают читать данные вплоть до границы своего блока.

Понятное дело что строки будут порваны. Тут уж фантазия на выгул. Можно собрать и обработать в конце.
Если при чтении блока конец строки не достигнут, поток сообщает этот кусок незавершенной строки и начало строки (смещение в файле) менеджеру пула, строки складываются по возрастанию смещения от 0.
Если чтение блока начато не от начала смещения, т.е. нашли чей-то хвост, его так же передают менеджеру.
В конце, менеджер последнему потоку передает необработанные части на доработку.

Многопоточная работа с одним файлом, как лучше сделать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт