Какой способ парсинга выбрать?

Question

ivanserpov @ivanserpov

Автоматизация

Какой способ парсинга выбрать?

Есть 15 млн url нужно проверить ответ каждого urla на существования.
Сейчас получаю ответы на php c помощью get_headers.
Но PHP для 15 млн адресов слишком долго, подскажите как ускорить процесс ? Перейти на питон ? Или выбрать какой то готовый продукт парсер ?
Как все сделать быстро и красиво ?)

Вопрос задан более двух лет назад
119 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Школа Сильных Программистов

Без ерунды

5 недель

Далее
Нетология

Нейросети для бизнеса и управленцев

6 недель

Далее
Skillbox

Нейросети для бизнеса

2 месяца

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Автоматизация

+1 ещё

Простой
Как настроить термостаты теплого пола и радиаторные головки в одной комнате в системе Tuya?
- 1 подписчик
- 09 нояб.
- 110 просмотров
1

ответ
3D

+2 ещё

Простой
Pbcad. Как правильно экспортировать и добавлять свои пользовательские блоки, чтобы они отображались корректно?
- нет подписчиков
- 04 нояб.
- 50 просмотров
0

ответов
Google Sheets

+1 ещё

Средний
Правильно ли настроен скрипт в гугл шитс?
- 1 подписчик
- 29 окт.
- 95 просмотров
0

ответов
Telegram

+2 ещё

Простой
Как настроить репост из телеграм канала в вк группу?
- 2 подписчика
- 21 окт.
- 253 просмотра
1

ответ
Автоматизация

+1 ещё

Простой
Как изучать SCADA и программирование ПЛК самостоятельно дома?
- 1 подписчик
- 19 сент.
- 137 просмотров
1

ответ
Python

+1 ещё

Простой
Как имитировать нажатие пкм в неактивное окно DirectX?
- 1 подписчик
- 15 авг.
- 106 просмотров
1

ответ
Автоматизация

+1 ещё

Средний
Как парсить/взять результат решения капчи в BAS?
- 1 подписчик
- 09 авг.
- 76 просмотров
0

ответов
Автоматизация

Простой
Для чего нужна программа Hetic X.1000?
- 1 подписчик
- 06 авг.
- 156 просмотров
0

ответов
Автоматизация

+1 ещё

Сложный
Из конструктора АСУТП в инженера АСУТП?
- 4 подписчика
- 30 июл.
- 2131 просмотр
2

ответа
YouTube

+1 ещё

Средний
Как загружать на YouTube массово ролики / Вести много каналов?
- 1 подписчик
- 01 июл.
- 396 просмотров
1

ответ
Показать ещё Загружается…

Инженер по автоматизации тестирования (AQA Java)

DCloud

До 250 000 ₽

Team Lead | Команда автоматизации закупок

SMALL

от 4 000 до 6 000 $

Аналитик

Gen AI Solutions

от 150 000 до 250 000 ₽

Не надо ставить как можно больше тэгов. Лучше оставить один, но конкретный, с которым проблема.
См.п.3.1 Регламента. Также обратите внимание на п.3.4

Answer 1 · 2023-02-20 09:06:46

Тут вариант - перейти на очереди. При чем без разницы, на каком языке будут крутится воркеры.
Например, надо проверить ссылки, кидаем в очередь все ссылки. Очередь можно использовать любую - Redis, Gearman, YandexMQ, RabbitMQ. Последний я тестил с 10к записями, но многие пишут, что с 1м медленно работает. По идее Яндекс должен нормально справляться с такими нагрузками. Ну а Редис и Гирман довольно легко переваривают по 100к записей
Я рекомендовал бы использовать Redis. И очень сильно не рекомендую использовать Mysql для этого.

А дальше просто воркеры выполняют задачу и записывают результат. Ну или кидают в другую очередь. Воркеры можно писать на любом языке. Это довольно большой плюс. Также их можно размещать на разных серверах. Можно запустить несколько воркеров на php и несколько на python. И проверить их скорость.

Работу воркеров можно через Supervisor контролировать - автозапуск, рестарт и количество запущенных воркеров.

Зачем кидать результат в другую очередь? Чтобы избежать кучи одновременных коннектов к базе. Просто один-два воркера собирают результаты и записывают в базу.

Ну и первые воркеры будут выполнять определенную задачу и будут работать с очередями. То есть, взял задание, выполнил и кинул результат. На Python подобный скрипт будет потреблять памяти 5-15Мб. Можно около сотни воркеров на слабой vds запустить.

Answer 2 · 2023-02-19 17:22:05

PHP отлично справится с такой задачей, достаточно распараллелить её выполнение на несколько процессов через fork.

А вместо get_headers лучше использовать curl: в нём можно установить таймауты (это важный аспект), получить http status code и заголовки ответа;

Какой способ парсинга выбрать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт