Как правильно параллельно обрабатывать файлы на c++?

Question

Pavel @rusbaron

Не стыдно не знать, стыдно не интересоваться

C++

Как правильно параллельно обрабатывать файлы на c++?

Доброго времени суток!
Дали тестовое задание, на входе получаю папку с файлами.Необходимо прочитать все текстовые файлы в папке(в файлах записано целое число),просуммировать.Выводить в stdout название файла и его содержимое по мере прочтения,в конце вывести общую сумму.
Считывать файлы параллельно,после прочтения файла поток усыпить на 1 секунду.
Дело в том что с параллельными вычислениями на с++ я ещё не работал. В результате смог написать вот это:

#include "boost/filesystem.hpp" ///For reading directory
#include "boost/lexical_cast.hpp" ///For converting and checking data in file
#include <iostream> ///Cout
#include <fstream> ///Open file
#include <atomic> ///For total sum
#include <thread> ///Parallel working


using namespace std;
using namespace boost::filesystem;


atomic_int TotalSum;
/*
* Func for reading and checking file content.Return readed value.
*/
void ReadFile(path InputFileWithPath)
{
	using boost::lexical_cast;
	using boost::bad_lexical_cast;
	int Answer = 0;
	std::ifstream InputFile(InputFileWithPath.string());
	string tmpString;
	if(InputFile.is_open())
	{
		while(!InputFile.eof())
		{
			getline(InputFile, tmpString);
		}
		
	}
	try {
		Answer=lexical_cast<int>(tmpString);
		cout << InputFileWithPath.filename() << ": " << Answer << endl;
		TotalSum += Answer;
		this_thread::sleep_for(chrono::seconds(1));
	}
	catch (const bad_lexical_cast &) {
		///Do nothing
	}
}

int main(int argc, char *argv[])
{
	TotalSum = 0;

	path InputPath(argv[1]);

	directory_iterator EndIterator;

	for(directory_iterator FileIterator(InputPath);FileIterator!=EndIterator;++FileIterator)
	{
		if(is_regular_file(FileIterator->path()))
		{
			thread ReadFileThread(ReadFile, move(FileIterator->path()));
			ReadFileThread.detach();
		}
	}
	cout << "Final sum: " << TotalSum << endl;

	return 0;
}

Но судя по результату работы вижу что неправильно сделал. Ибо если делать join потока,то всё чтение будет проходить как в последовательном режиме.При detach как написано в коде выше,нет смысла усыплять поток на 1 секунду.Как правильно можно обработать файлы параллельно?

Вопрос задан более трёх лет назад
1229 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Решения вопроса 2

7 комментариев

Pavel @rusbaron Автор вопроса

ну в задании сказано что в текстовом файле находится целое число.Целое число на много гигабайт тупо не влезет. Понимаю что выглядит не закончено,но я делал исходя из требований)

Написано более трёх лет назад
Pavel @rusbaron Автор вопроса

Так по хорошему надо ещё проверки на аргумент ставить,а не брать тупо первый.

Написано более трёх лет назад
Максим Мосейчук @fshp

Павел Тананыхин: Целое число может быть неограниченной длинны. В том числе и много гигабайт.

Написано более трёх лет назад
Pavel @rusbaron Автор вопроса

fshp: я к тому,что как его тогда запихнуть в программу?Какой тип данных нужен для такого числа?

Написано более трёх лет назад
Pavel @rusbaron Автор вопроса

fshp: плюс если число будет огромное на много гигабайт,там не будет символа каретки,это будет считаться 1 строкой.

Написано более трёх лет назад
Максим Мосейчук @fshp

Павел Тананыхин: тип - да любой, который реализует длинную арифметику. mpz_t из gmp например.

Написано более трёх лет назад
Pavel @rusbaron Автор вопроса

fshp: хм,спс за инфу.Пока ни разу не сталкивался с длинной арифметике,ни в теории,ни в практике.

Написано более трёх лет назад

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

+1 ещё

Простой
Какие почитать книги, которые научат составлять алгоритмы?
- 2 подписчика
- 19 сент.
- 301 просмотр
2

ответа
Windows

+2 ещё

Простой
Почему запуск процесса через CreateProcess() может очень медленно выполняться?
- 1 подписчик
- 18 сент.
- 133 просмотра
1

ответ
C++

Простой
Как убрать окошко «Assertion Failed Microsoft Visual C++»?
- 1 подписчик
- 12 сент.
- 55 просмотров
1

ответ
C++

+1 ещё

Простой
Как правильно указать путь к пнг файлу в SFML при работе с Cmake?
- 1 подписчик
- 07 сент.
- 75 просмотров
2

ответа
C++

Простой
Как легко и просто развернуть curl для проекта С++?
- 1 подписчик
- 30 авг.
- 173 просмотра
2

ответа
C++

Простой
Почему я могу изменять состояние объекта хранящийся в const std::unique_ptr и const std::shared_ptr?
- 1 подписчик
- 21 авг.
- 140 просмотров
1

ответ
C++

+1 ещё

Простой
Это как вообще?
- 1 подписчик
- 20 авг.
- 291 просмотр
1

ответ
C++

+2 ещё

Простой
Можно ли использовать не парные Acquire/Release порядки памяти?
- 1 подписчик
- 16 авг.
- 197 просмотров
2

ответа
C++

Простой
Сборник задач на C++?
- 1 подписчик
- 16 авг.
- 212 просмотров
1

ответ
C++

Простой
Почему requires !std::is_void_v работает только для шаблона?
- 1 подписчик
- 15 авг.
- 70 просмотров
0

ответов
Показать ещё Загружается…

ML-разработчик (Machine Learning)

DevTeam.Space

от 2 000 до 4 000 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Automation QA Engineer (Java)

ITK academy • Казань

от 90 000 ₽

Answer 1 · 2016-10-03 00:45:38

Завести vector<thread>.
Сначала в цикле породить все потоки и сохранить в вектор.
Потом другим циклом пройтись по всем и сделать join каждому.

P.S.: В реальном коде с точки зрения производительности лучше проверять is_regular_file тоже внутри потока. И нет смысла в цикле читать из файла все строки ради значения последней (может лучше было бы - первой) строки. Что если попадется многогигабайтный файл?

Answer 2 · 2016-10-03 09:48:40

Еще можно посмотреть в сторону OpenMP.
И тут есть 2 места для параллелизма: чтение файлов и суммирование. Суммирование тоже можно выполнять параллельно:

#pragma omp parallel for reduction (+:sum)
for (i=0;i < n;i++)
  sum=sum+a[i];

И еще вывод в cout нужно наверное синхронизировать.

Answer 3 · 2020-06-18 11:11:41

Это видимо учебная задача. Практического смысла параллелизма здесь мало.

Обычная дисковая подсистема на домашнем ноутбуке состоит из 1 HDD/SDD. И он не параллелится. Тоесть это такое жлобское устройство которое в 1 момент времени может обслуживать чтение и запись 1 блока файловой системы (или сектора или кластера неважно). Поэтому параллелизм толком ничего не дает. Однако если у вас какие-то RAID массивы или сеть хранения данных то она может обеспечить такие действия.

Что еще в задаче плохо.

while(!InputFile.eof())
    {
      getline(InputFile, tmpString);
    }

Непонятно что здесь происходит? Перемотка в конец файла? Почему так дорого? Почему мы должны каждый раз получать строки? Ведь нам нужна только последняя? Может надо было взять первую? Вобщем непонятно.

Вот если-бы автор решал задачи наподобие map-reduce где работают с большими файлами тогда параллелизм был бы понятен. Там чтение блока файла чередуется в вычислениями.

Здесь вычисления - мелкие. И большая часть процессорного времени зря сгорит в старт-стопах потоков и в финальном join потоков (которые я кстати не вижу).

Как правильно параллельно обрабатывать файлы на c++?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт