Работа с огромным количеством файлов?

Question

Rihard_Novozhilov @Rihard_Novozhilov

Проектирование программного обеспечения

Работа с огромным количеством файлов?

C++, C#, RUST? Задача обработать большое количество файлов (более 2 миллионов). Какую технологию выбрать?

Вопрос задан более трёх лет назад
360 просмотров

9 комментариев

Подписаться 4 Простой 9 комментариев

Everybody_Lies @Everybody_Lies

вы бы хоть написали, что вы планируете с этими файлами делать

Написано более трёх лет назад
Василий Банников @vabka

При такой постановке вопроса разницы нет.
Пробовали делать прототип на чём-то простом (не расте, и не на на плюcах)?
Может и так нормально работает?

Что с этими файлами будет происходить?

Написано более трёх лет назад
Rihard_Novozhilov @Rihard_Novozhilov Автор вопроса

Задача считывать и находить конкретные строки в текстовых файлах, желательно через regular expressions.
Делал на c# используя многопоточность. Задался вопросом, может другие тохнологии справляются лучше.

Написано более трёх лет назад
edward_freedom @edward_freedom

Rihard_Novozhilov, простую мвпишку написать дело десяти минут

Написано более трёх лет назад
GavriKos @GavriKos

Вряд ли тут прям упрется в язык. Скорее в IO операционки/железа. А тут на помощь придет Ram-disk.

Это конечно если файлы уже есть и вы с этим ничего не сделаете. В противном случае звучит как задача для баз данных

Написано более трёх лет назад
neol @neol

Rihard_Novozhilov,

Задача считывать и находить конкретные строки в текстовых файлах, желательно через regular expressions.

А чем не устраивает grep -e?

Написано более трёх лет назад
Rihard_Novozhilov @Rihard_Novozhilov Автор вопроса

neol, нужно на винде с GUI
WSL естественно слишком медленный

Написано более трёх лет назад
Василий Банников @vabka

Rihard_Novozhilov, так греп и под виндой есть.
Ну и ещё есть ripgrep (на rust), который даже быстрее, чем обычный (он тоже отлично работает под виндой)

Написано более трёх лет назад
Dmitry Bay @kawabanga

Everybody_Lies, Надо бот создать, который будет спрашивать "А нах*я вам это надо?", может половина вопросов сразу же закрылись.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик

9 месяцев

Далее
ProductStar × РБК

Профессия: Инженер по информационной безопасности

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программирование

+1 ещё

Простой
Проект для программирования?
- 2 подписчика
- 27 апр.
- 463 просмотра
8

ответов
Проектирование программного обеспечения

Средний
Что входит в раздел commands в CQS?
- 1 подписчик
- 30 мар.
- 62 просмотра
1

ответ
Проектирование программного обеспечения

Простой
Что использовать для outbox паттерн?
- 1 подписчик
- 12 мар.
- 93 просмотра
1

ответ
Проектирование программного обеспечения

Простой
Как избежать излишнего усложнения на ранних этапах развития SaaS-проектов?
- 2 подписчика
- 03 мар.
- 155 просмотров
2

ответа
C++

+2 ещё

Простой
Заголовочные файлы в Си нужны только для интерфейса?
- 3 подписчика
- 26 февр.
- 585 просмотров
5

ответов
Проектирование программного обеспечения

+1 ещё

Простой
Есть ли типовые архитектуры системы диспечерезации?
- 1 подписчик
- 07 нояб. 2025
- 99 просмотров
2

ответа
Проектирование программного обеспечения

Простой
Как правильно в EventDriven?
- 1 подписчик
- 26 сент. 2025
- 134 просмотра
2

ответа
1С

+1 ещё

Средний
Дашборд. Какую методу сбора данных и платформу выбрать для разработки?
- 1 подписчик
- 04 сент. 2025
- 191 просмотр
4

ответа
Проектирование программного обеспечения

Простой
Как в 2025 году приблизиться к полному CAP (не AP/CP/CA), а именно к CAP?
- 6 подписчиков
- 12 авг. 2025
- 1230 просмотров
1

ответ
Проектирование программного обеспечения

+1 ещё

Средний
Сможет ли кластер minio выдержать 60000 клиентов, стримящих данные?
- 2 подписчика
- 03 авг. 2025
- 405 просмотров
3

ответа
Показать ещё Загружается…

Проджект менеджер / Project Manager

Emilius Agency

от 20 000 до 40 000 ₽

Специалист тех поддержки (английский язык, смены с 16:00 до 00:00 Мск)

ТехСофт

от 50 000 ₽

Разработчик JavaScript/NodeJS, специалист технической поддержки

A-Parser

от 800 до 800 $

вы бы хоть написали, что вы планируете с этими файлами делать
При такой постановке вопроса разницы нет.
Пробовали делать прототип на чём-то простом (не расте, и не на на плюcах)?
Может и так нормально работает?

Что с этими файлами будет происходить?
Задача считывать и находить конкретные строки в текстовых файлах, желательно через regular expressions.
Делал на c# используя многопоточность. Задался вопросом, может другие тохнологии справляются лучше.
Rihard_Novozhilov, простую мвпишку написать дело десяти минут
Вряд ли тут прям упрется в язык. Скорее в IO операционки/железа. А тут на помощь придет Ram-disk.

Это конечно если файлы уже есть и вы с этим ничего не сделаете. В противном случае звучит как задача для баз данных
Rihard_Novozhilov,

Задача считывать и находить конкретные строки в текстовых файлах, желательно через regular expressions.

А чем не устраивает grep -e?
neol, нужно на винде с GUI
WSL естественно слишком медленный
Rihard_Novozhilov, так греп и под виндой есть.
Ну и ещё есть ripgrep (на rust), который даже быстрее, чем обычный (он тоже отлично работает под виндой)
Everybody_Lies, Надо бот создать, который будет спрашивать "А нах*я вам это надо?", может половина вопросов сразу же закрылись.

Answer 1 · 2021-12-29 18:39:36

Saboteur @saboteur_kiev

software engineer

bash отлично справится

find . -name "file.ext" | xargs -n 10 -P 10 "phraze"

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2021-12-29 17:39:21

Если миллион файлов находится на одном физическом устройстве, то многопоточность тут не требуется и даже вредна. Для поиска на нескольких дисках достаточно запустить просто несколько экземпляров приложения для поиска, указав для каждого свой список файлов на своих дисках.

Последовательное чтение файлов для простого поиска подстроки - очень простая задача, берешь c++, делаешь цикл с fgetstr (если обработка нужна построчная), заранее подготавливаешь искомые строки во всех используемых кодировках как набор байт char* (в идеале в виде констант, т.е. сгенерировав код) просто сравнивая их с помощью strcmp... если таких строк много то подготовь таблицы посимвольного поиска (нагенерировать последовательно вложенные switch case) - этот подход наиболее быстрый из всех возможных, позволяет обрабатывать миллионы строк в секунду

p.s. если что, gui можно реализовать на одном языке программирования (c# .net) а поиск на c++, запуская из gui приложение, передав нужные параметры в командной строке или специальном файле

p.p.s. если поиск нужно делать часто, может все же поместить эти файлы в базу данных и создать для искомых данных индексы?

Answer 3 · 2021-12-29 21:59:18

Griboks @Griboks

Узкое место тут в файловой системе. Всё остальное не имеет значения.

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2021-12-30 10:26:31

Владимир Коротенко @firedragon

Не джун-мидл-сеньор, а трус-балбес-бывалый.

https://www.elastic.co/elasticsearch/features#elas...
И какую нибудь веб морду. Искать будет сильно быстрее чем ваши потуги.

Ответ написан более трёх лет назад

Комментировать

Работа с огромным количеством файлов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт