Как разбить парсинг XML файла на несколько потоков в C#?

Question

Дмитрий Филиппов @HorrorInferno

веб-разработчик, бэкэндер

Как разбить парсинг XML файла на несколько потоков в C#?

Добрый день.

Есть задача распарсить огромный XML файл (1ТБ) и занести данные в БД.
В одном единственном потоке это всё работает очень медленно, и парсер закончит свою работу приблизительно через три года :D

В общем нужно как-то грамотно разбить парсинг на несколько потоков. Есть варианты?

P.S. с многопоточностью в C# я еще ни разу не работал.

Вот код, который у меня работает в данный момент:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Xml;
using System.Xml.Linq;
using Npgsql;

namespace MapReader
{
    class Program
    {
        static void Main(string[] args)
        {
            Console.Write("> ");

            string path = Console.ReadLine();

            IEnumerable<XElement> root = from el in Root(path) select el;

            Osm2Pg pgosm = new Osm2Pg();

            pgosm.CreateTables();

            foreach (XElement item in root)
            {

                if (item.Name == "way")
                {

                    long wayID = long.Parse(item.Attribute("id").Value);

                    Console.WriteLine("way: " + item.Attribute("id").Value);

                    foreach (XElement nd in item.Elements("nd"))
                    {

                        long nodeReference = long.Parse(nd.Attribute("ref").Value);
                        pgosm.InsertWayNds(wayID, nodeReference);

                        Console.WriteLine("--nd: " + nd.Attribute("ref").Value);
                    }

                    foreach (XElement tag in item.Elements("tag"))
                    {

                        string key = tag.Attribute("k").Value;
                        string value = tag.Attribute("v").Value;
                        pgosm.InsertWayTags(wayID, key, value);

                        Console.WriteLine("--tag: " + tag.Attribute("k").Value);
                    }

                }


                // проходимя по node.
                if (item.Name == "node")
                {
                    // конвертируем координаты из географической системы в декартову.
                    double lon = double.Parse(item.Attribute("lon").Value);
                    double lat = double.Parse(item.Attribute("lat").Value);

                    float x = (float)GeoHelper.lonToX(lon);
                    float z = (float)GeoHelper.latToY(lat);


                    long nodeId = long.Parse(item.Attribute("id").Value);
                    pgosm.InsertNodes(nodeId, x, z);
                    
                    Console.WriteLine("node: " + x + "," + z);

                    if (item.HasAttributes)
                    {
                        foreach (XElement tag in item.Elements("tag"))
                        {

                            string key = tag.Attribute("k").Value;
                            string value = tag.Attribute("v").Value;
                            pgosm.InsertNodeTags(nodeId, key, value);

                            Console.WriteLine("--tag: " + tag.Attribute("k").Value);
                        }
                    }
                }
            }

            Console.WriteLine("End of program...");
            Console.Read();

        }

        // магия б***ь...
        static IEnumerable<XElement> Root(string path)
        {
            using (XmlReader reader = XmlReader.Create(path))
            {
                while (reader.Read())
                {
                    if (reader.Name == "way" || reader.Name == "node")
                    {
                        XElement el = XElement.ReadFrom(reader) as XElement;
                        if (el != null)
                            yield return el;
                    }
                }
            }

        }

    }
}

Вопрос задан более трёх лет назад
670 просмотров

5 комментариев

Подписаться 2 Средний 5 комментариев

Станислав Макаров @Nipheris Куратор тега C#

Есть задача распарсить огромный XML файл (1ТБ) и занести данные в БД.

Вот можете для начала спросить у того, кто его записал, как он это сделал :D

Чёт три года много даже для 1ТБ

Написано более трёх лет назад
freeExec @freeExec

Не занимайтесь фигнёй, используйте osm2pgsql. И да, файл планеты будет импортироваться несколько дней.

Написано более трёх лет назад
freeExec @freeExec

Станислав Макаров, Потому что там вывод в консоль занимает времени больше чем сам парсинг.

Написано более трёх лет назад
Дмитрий Филиппов @HorrorInferno Автор вопроса

freeExec, я знаю про эту утилиту, не подружил я ее со своим сервером.

Написано более трёх лет назад
freeExec @freeExec

Дмитрий Филиппов, Тогда добавьте в вопрос, что в xml 3 блока и каждый последующий ссылается на все предыдущие.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

+1 ещё

Простой
Почему возникает deadlock?
- 1 подписчик
- 17 июл.
- 142 просмотра
1

ответ
C#

+1 ещё

Простой
Как исправить ошибку CS0019 в Unity?
- 1 подписчик
- 16 июл.
- 74 просмотра
2

ответа
C#

+2 ещё

Средний
Как запустить приложение через WSL в Rider?
- 1 подписчик
- 16 июл.
- 58 просмотров
0

ответов
C#

+2 ещё

Средний
Как поймать исключение, возникшее в фоновом потоке UI-приложения?
- 1 подписчик
- 12 июл.
- 80 просмотров
0

ответов
C#

+1 ещё

Простой
Как распознать клавишу Alt в терминале?
- 1 подписчик
- 11 июл.
- 82 просмотра
1

ответ
Android

+2 ещё

Простой
Какое направление выбрать в Android?
- 1 подписчик
- 09 июл.
- 232 просмотра
2

ответа
C#

+1 ещё

Средний
Как правильно обрабатывать исключения в WPF приложении?
- 1 подписчик
- 06 июл.
- 118 просмотров
1

ответ
C#

+2 ещё

Простой
Ошибка после билда в WebGL?
- 1 подписчик
- 05 июл.
- 61 просмотр
0

ответов
C#

Простой
В чем причина повторного срабатывания IOptionsMonitor.onChange?
- 1 подписчик
- 02 июл.
- 67 просмотров
0

ответов
C#

+1 ещё

Средний
Как распечатать чек через API Атол?
- 2 подписчика
- 01 июл.
- 603 просмотра
1

ответ
Показать ещё Загружается…

C# разработчик

AMBIM

от 240 000 до 300 000 ₽

Developer C#

Лаборатория Касперского

C# разработчик

ИТ-компания «Лоция» • Москва

Есть задача распарсить огромный XML файл (1ТБ) и занести данные в БД.

Вот можете для начала спросить у того, кто его записал, как он это сделал :D

Чёт три года много даже для 1ТБ
Не занимайтесь фигнёй, используйте osm2pgsql. И да, файл планеты будет импортироваться несколько дней.
Станислав Макаров, Потому что там вывод в консоль занимает времени больше чем сам парсинг.
freeExec, я знаю про эту утилиту, не подружил я ее со своим сервером.
Дмитрий Филиппов, Тогда добавьте в вопрос, что в xml 3 блока и каждый последующий ссылается на все предыдущие.

Answer 1 · 2018-03-29 17:45:13

В добавок к сказанному у cicatrix
заменить циклы foreach на

Parallel.Invoke(() => DoSomeWork(), () => DoSomeOtherWork());

При помощи библиотеки Task-based Asynchronous Programming
Это избавит от необходимости в

Количество потоков подобрать под конкретное железо, либо (если есть желание заморочиться) можно сделать настраиваемым - начать с 4 потоков, считать среднюю скорость обработки узлов (кол-во узлов в минуту), вводить по одному потоку в минуту, измеряя, увеличилось ли время или уменьшилось. Если время увеличилось - возвращаем прежнее количество, если уменьшилось - добавляем ещё поток, пока не найдём оптимальный вариант.

Answer 2 · 2018-03-29 17:25:49

Я смотрю, у вас какой-то XML ридер особый. Многое зависит от его реализации, а именно - его потокобезопасности.
В принципе, у вас главный foreach можно распараллелить следующим образом:
Делаем по шаблону "производитель-потребитель"

Производитель у вас будет один - ваш ридер, который должен "поставлять" ссылки на отдельные узлы вашего файла. Потребителем должны стать потоки, хватающие первый попавшийся (и учтите это сразу - они будут хватать не по порядку, а именно - первый попавшийся узел) и парсящие их.
Количество потоков подобрать под конкретное железо, либо (если есть желание заморочиться) можно сделать настраиваемым - начать с 4 потоков, считать среднюю скорость обработки узлов (кол-во узлов в минуту), вводить по одному потоку в минуту, измеряя, увеличилось ли время или уменьшилось. Если время увеличилось - возвращаем прежнее количество, если уменьшилось - добавляем ещё поток, пока не найдём оптимальный вариант.

Как разбить парсинг XML файла на несколько потоков в C#?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт