Быстрый парсер кодов ответа сервера для 1 млн сайтов. Пока что выбрал PHP?

Question

Jo Jo @michael_novikov

Кот

Парсинг

Быстрый парсер кодов ответа сервера для 1 млн сайтов. Пока что выбрал PHP?

Доброго времени суток. Вопрос такой, собираюсь сделать простой, но быстрый парсер заголовков ответов серверов и парсинга главных страниц примерно для 1 миллиона сайтов. Пока что выбор пал на PHP, так как для него есть удобная библиотека CURL (для парсинга главных страниц). Но смущает то, что скрипт PHP довольно быстро упирается в ограничения nginx. Придется продолжать парсинг в несколько итераций и создавать дополнительную нагрузку на базу. Да и не предназначен PHP для таких долгих задач по своей сути.
В идеале выполнять парсинг каждый день. Как думаете, стоит попробовать что-то еще, или выбор в сторону PHP правильный?

Вопрос задан более трёх лет назад
389 просмотров

7 комментариев

Подписаться 1 Простой 7 комментариев

FanatPHP @FanatPHP

Стесняюсь спросить, а при чем здесь nginx?

Написано более трёх лет назад
sim3x @sim3x

curl - программа на Си
Для курла есть биндинги на всех ЯП

Написано более трёх лет назад
Jo Jo @michael_novikov Автор вопроса

FanatPHP, сейчас большинство серверов работает на ngix, настроить свой я не в силах)

Написано более трёх лет назад
FanatPHP @FanatPHP

Если до сих пор непонятно, парсер миллиона сайтов и nginx - это вещи никак между собой не связанные. Это как спросить "я тут банку майонеза нашел, но в нее огурцы не помещаются".

Что в целом говорит нам о том, что "мильён сайтов" - это влажные эротические мечты, вообще никак не связанные с реальностью.

Написано более трёх лет назад
Jo Jo @michael_novikov Автор вопроса

FanatPHP, ну как не связаны, когда делал онлайн сервис по парсингу ссылок, все упиралось в ограничения ngix. Но сделал, через Cron переодически запускает, все работает, хоть и не очень быстро. Не уточнил, что парсер будет в виде онлайн сервиса с web интерфейсом.

Написано более трёх лет назад
FanatPHP @FanatPHP

Да без разницы с каким интерфейсом.
интерфейс к парсеру вообще никакого отношения не имеет. Ну разве только если в таких вот поделках игрушечных

Написано более трёх лет назад
Randewoo @Randewoo

Еще, как вариант, сделать все на JS на клиенте.
Зачем убивать сервак, если можно убить сотни, а то и тысячи клиентов?))))

Написано более трёх лет назад

Стесняюсь спросить, а при чем здесь nginx?
curl - программа на Си
Для курла есть биндинги на всех ЯП
FanatPHP, сейчас большинство серверов работает на ngix, настроить свой я не в силах)
Если до сих пор непонятно, парсер миллиона сайтов и nginx - это вещи никак между собой не связанные. Это как спросить "я тут банку майонеза нашел, но в нее огурцы не помещаются".

Что в целом говорит нам о том, что "мильён сайтов" - это влажные эротические мечты, вообще никак не связанные с реальностью.
FanatPHP, ну как не связаны, когда делал онлайн сервис по парсингу ссылок, все упиралось в ограничения ngix. Но сделал, через Cron переодически запускает, все работает, хоть и не очень быстро. Не уточнил, что парсер будет в виде онлайн сервиса с web интерфейсом.
Да без разницы с каким интерфейсом.
интерфейс к парсеру вообще никакого отношения не имеет. Ну разве только если в таких вот поделках игрушечных
Еще, как вариант, сделать все на JS на клиенте.
Зачем убивать сервак, если можно убить сотни, а то и тысячи клиентов?))))

Answer 1 · 2019-09-19 08:59:33

Виталий @vshvydky

по мне эта задача в разы лучше ложится под node.js

Ответ написан более трёх лет назад

Комментировать

Быстрый парсер кодов ответа сервера для 1 млн сайтов. Пока что выбрал PHP?

Войдите на сайт