Как наиболее эффективно выкачать несколько миллионов html страниц, при этом не потратив вечность?

Question

NoEscape @NoEscape

Как наиболее эффективно выкачать несколько миллионов html страниц, при этом не потратив вечность?

Программа на C# делает Get запросы и выкачивает код. Я создаю в цикле по новому потоку, каждый поток с функцией выкачивания html. После 1400 повторов цикла прога виснет, visual studio тоже. Иногда отвисает и выбрасывает ошибку out of memory. Кажется, это из за большого количества потоков.

Вопрос: как мне наиболее эффективно выкачать несколько миллионов html страниц, при этом не потратив вечность?

Вопрос задан более трёх лет назад
2846 просмотров

1 комментарий

Подписаться 2 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

OTUS

C# Developer. Professional

6 месяцев

Далее
Ulearn.me

Основы программирования на примере C#. Часть 1

1 неделя

Далее
Software-testing.ru

Программирование на C# для тестировщиков

10 недель

Далее

Пригласить эксперта

Ответы на вопрос 2

2 комментария

NoEscape @NoEscape Автор вопроса

Отстал я от жизни, до сих пор сижу на VS 2010, там такого нету, придется обновляться что бы использовать Net 4.5

Написано более трёх лет назад
nekipelov @nekipelov
Эх, а для нас C++11, который частично поддерживает VS 2010, еще слишком ново и нестабильно :-(

Не может быть, чтобы в этой версии не было возможности использовать асинхронные запросы. Должно работать что-то вроде такого:

HttpWebRequest webRequest; void StartWebRequest() { webRequest.BeginGetResponse(new AsyncCallback(FinishWebRequest), null); } void FinishWebRequest(IAsyncResult result) { webRequest.EndGetResponse(result); }

Подробнее вот тут: msdn.microsoft.com/en-us/library/system.net.httpwe...
Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

+1 ещё

Простой
Как создать копию предмета и добавить ему компонент?
- 1 подписчик
- 08 нояб.
- 78 просмотров
1

ответ
C#

+1 ещё

Простой
Как сделать постраничную навигацию в Avalonia UI MVVM?
- 2 подписчика
- 08 нояб.
- 69 просмотров
0

ответов
C#

Простой
Почему одинаковые делегаты работают по разному, В 10 Раз разница в скорости?
- 1 подписчик
- 27 окт.
- 251 просмотр
0

ответов
C#

+1 ещё

Простой
Почему не работает обратная привязка в Avalonia UI?
- 1 подписчик
- 22 окт.
- 127 просмотров
1

ответ
C#

+1 ещё

Средний
При каких входных данных моя программа работает неверно и как мне научиться самому это понимать? Как научиться искать ошибки?
- 2 подписчика
- 20 окт.
- 340 просмотров
3

ответа
C#

+2 ещё

Простой
Как универсализировать обычный ViewList в WPF C# XAML?
- 1 подписчик
- 20 окт.
- 80 просмотров
2

ответа
C#

+1 ещё

Простой
Как проверить, наследует ли объект в обобщённом методе?
- 1 подписчик
- 16 окт.
- 107 просмотров
1

ответ
C#

+1 ещё

Средний
Пермач после авторизации [WTelegram,TDLib] как исправить?
- 1 подписчик
- 10 окт.
- 310 просмотров
0

ответов
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 615 просмотров
1

ответ
C#

+1 ещё

Простой
Как в VSCode для C#-кода сгенерировать или посмотреть только структуру?
- 1 подписчик
- 01 окт.
- 137 просмотров
1

ответ
Показать ещё Загружается…

QA automation (C#)

Альфа-Банк • Москва

от 200 000 до 350 000 ₽

QA Automation Engineer (C#)

Centicore Group • Москва

До 300 000 ₽

Специалист по анализу сетевого трафика

РСТ Энерджи • Санкт-Петербург

от 50 000 ₽

Если по out of memory то просто проблемы с очисткой памяти повставляй в конце каждого цикла закачки 1 страницы GC.Collect() и скорее всего проблема исчезнет. Большое количество потоков не поможет, 10 - 15 максимум одновременно, больше есть шанс что начнут падать екзепшены в каком либо потоке и обработка каждого будет занимать много времени.

Answer 1 · 2014-01-17 01:54:13

У вас что 1400 потоков создается? Если у вас оперативки гигов 8-16 то конечно не хватит памяти... Вы хоть память освобождаете?

Вам нужно написать менеджер очереди. Несколько потоков будут висеть постоянно и каждый будет обращаться за новым заданием к менеджеру (придется блокировать остальные потоки дабы небыло гонки за ресурсами). Получив задание ваш поток-воркер выкачает данные и сохранит результат работы в базу/файловую систему и будет просить новое задание...

Answer 2 · 2014-01-17 10:30:09

Я не программирую на C#, поэтому могу сказать только по подходу к задаче. На каждую страницу по потоку - расточительство. Тем более, что на каждом углу говорят о том, как удобно сделана асинхронность в C#. Т.е. потоки не нужны вообще, скачивать надо асинхронно и единственный поток вполне справится со скачиванием данных на достаточно широком канале.

Как наиболее эффективно выкачать несколько миллионов html страниц, при этом не потратив вечность?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт