Какие есть библиотеки для работы с сетью?

Question

Андрей @Wertz

PHP

Какие есть библиотеки для работы с сетью?

Существует ли какие-нибудь библиотеки для C++, через которые возможен парсинг веб-страниц и загрузка этой информации в файлы либо в БД?

Если да, то будут ли они быстрее работать обычного file_get_contents в php?

P.S. Библиотека необходима для загрузки большого числа страниц (около 5 млн.) и сохранения информации с них.

Вопрос задан более трёх лет назад
3547 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Skillbox

PHP-разработчик. Базовый уровень

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 212 просмотров
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 226 просмотров
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 208 просмотров
4

ответа
PHP

+1 ещё

Простой
Перестал работать php запрос к телеграмм?
- 1 подписчик
- 15 окт.
- 214 просмотров
1

ответ
PHP

+2 ещё

Простой
Как проще отправить изображение на стену канала?
- 1 подписчик
- 15 окт.
- 144 просмотра
1

ответ
PHP

Простой
Как точно работает скрипт на RoadRunner?
- 1 подписчик
- 13 окт.
- 207 просмотров
1

ответ
PHP

+1 ещё

Простой
Стоит ли использовать файловый сервер в проекте?
- 2 подписчика
- 13 окт.
- 246 просмотров
3

ответа
PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт.
- 265 просмотров
3

ответа
PHP

+1 ещё

Средний
Что входит в отладку скрипта на PHP?
- 1 подписчик
- 02 окт.
- 264 просмотра
1

ответ
PHP

+1 ещё

Средний
Возможно ли профилирование на PHP без xhprof и xdebug?
- 1 подписчик
- 02 окт.
- 177 просмотров
2

ответа
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 180 000 до 250 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

Разработчик PHP | WordPress

Globaldrive

от 150 000 ₽

Answer 1 · 2013-11-16 19:50:18

99% времени уйдёт на скачивание контента (5000000 страниц это не хухры мухры). Тут хоть на бейсике писать можно. Ну, конечно, C++ будет быстрее, но в абсолютных величинах, по итогам выполнения этой задачи, это вряд ли будет заметно.

Answer 2 · 2013-11-16 20:56:49

afiskon @afiskon

Мне кажется, вашу задачу лучше на Perl решать или на Python, но никак не на C++.

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2013-11-16 23:58:13

Я использую MultiCurl. Запускаю 100 загрузок, через bash запускается 20 копий скрипта (IPC реализовано через очередь в Redis). 18кссылок отрабатывает за 10 минут (около 30 в секунду). Но скрипт не просто качает, он проводит анализ страницы, перекодирует в требуемую кодировку, строит DOM страницы и через XPath вытягивает нужные данные. При этом каждая копия жрет где-то 50МБ. Схема простая и легко масштабируемая горизонтально.

Кстати, нужно понимать/разделять процесс скачки страницы и её парсинг. Первое может легко и непринужденно делать wget.

Сишные либы дадут в принципе один плюс - экономию ОЗУ (т.е. nelis заблуждается). В остальном больше времени уйдет на взаимодействие с сетью и записи данных в базу.

file_get_contents без задания контекстов использовать категорически нельзя. Ибо 1) это блокируемая функция, 2) не содержит таймаутов.

Answer 4 · 2013-11-16 17:39:40

Не скажу про существующие библиотеки, так как на C++ не писал ничего. Но, работа это будет быстрее чем на PHP (тем более, с учетом того объема, что Вы указали) - точно, хотя бы потому что PHP это интерпретируемый язык.

Какие есть библиотеки для работы с сетью?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт