На чем писать парсер сайтов? на PHP или Ruby?

На чем писать парсер сайтов?
PHP знаю хорошо
Ruby вообще не знаю :)
Парсер должен быть многопоточным и быстро работать)
вот думаю ради такого нужно выучить ruby
или хватит PHP?
  • Вопрос задан
  • 9240 просмотров
Решения вопроса 2
webus
@webus
Golang | Python | NodeJS | Java
Нормальные люди не ищут себе приключений, берут scrapy и python и получают многопоточный парсер из коробки.
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 8
Jump
@Jump
Системный администратор со стажем.
На чем писать парсер сайтов?
- на чем умеете.
Выучить руби оно конечно можно, но не ради написания парсера, к тому же парсер написать на руби ничуть не легче чем на пэхапе.

в пыхе есть нормальная многопоточность?
- той которая есть для парсера хватит с лихвой.

Он нормально спарсит сайт в 200к-500к страниц и будет парсить каждое утро в 9-00

Это вообще не зависит от языка написания парсера. Зависит от того что за сайт будете парсить в первую очередь, как часто вас банить будут, как качественно парсер написан, хорошие ли прокси сервера используете, и.т.п
Ответ написан
Freika
@Freika
Senior Ruby on Rails developer
На том, что лучше знаете. Знаете пхп - пишите на нем. Если хочется по пути освоиться в руби, пишите на Руби. Возможности языков для этой цели практически не отличаются.
Ответ написан
Комментировать
butteff
@butteff
Раз в тысячу лет заправляю свитер в носки
Вообще php, тем более многопоточно, будет очень долго работать.
Я бы писал это вообще под десктоп на чем-то, а не на пыхе.
Но на всякий случай вброшу ссылку, существенно облегчающую жизнь
simplehtmldom.sourceforge.net
Ответ написан
Bandicoot
@Bandicoot
Вась-программист
Пожалуй хватит Пыха
Ответ написан
rework
@rework
Помог ответ? В благодарность отметь его решением
По моему особой разницы тут нет на чем писать, поэтому советую писать на том, что более лежит к душе.
Для многопоточных запросов в php, можно использовать библиотеку curl, и функцию curl_multi_exec. Думаю в ruby можно ей же пользоваться.
Ответ написан
Комментировать
Writerim
@Writerim
Заполнить позже...
Я давно писал парсер следующим образом. bash + curl , распарсивал его тем же башем и получал необходимый кусок. Далее передавал через консоль в php скрипт. Работало очень быстро и на больших объемах.

Сейчас я бы с радостью попробовал что-то готовое.
Ответ написан
@asd111
Java + jsoup. Если сайт формируется через JS то Selenium вместо jsoup.
Многопоточность в Java легко сделать. После PHP на Java легко писать.
Thread t = new Thread(new Runnable() {
    @Override
    public void run() { 
        parse();
        }
    });
t.start();
Ответ написан
@Chups23
Добрый день, парсеры можно писать буквально на всех языках, но для парсеров есть отдельные языки которые подходят для этого! Из этих ЯПОВ я посоветую: '1. Python 2. PHP, 3. Javascript , 4. Ruby, 5. Java and .Net'
Можешь выбирать любой из этих вариантов!
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы