PavelUstyugov
@PavelUstyugov
proger support

На чем вы считаете перспективнее делать парсеры?

Изучаю направление парсингов. Научился делать парсеры на php. С другими видами парсеров пока не знаком.
Подскажите на чем еще делают парсеры и какие преимущества других языков для парсинга с точки зрения разработки софта и поиска заказов на данный вид работы.

PS: на бирже видел заказ парсера на node.js. Задумался может тоже помимо php опробовать другие языки.
  • Вопрос задан
  • 3206 просмотров
Пригласить эксперта
Ответы на вопрос 13
dimonchik2013
@dimonchik2013
а кормить вас будем блинами-они пролазят под дверь
lrg%20(1).jpg4364OS_Web%20Scraping%20with%20Python.jp

P.S. книги разные
Ответ написан
@throughtheether
human after all
Подскажите на чем еще делают парсеры
Python, например.
Requests + lxml для простых парсеров. Gevent/aiohttp для асинхронных запросов. Scrapy для "больших" парсеров, с пайплайнами, асинхронными запросами и прочим. Есть биндинги к Selenium, Ghost.
Ответ написан
iam_not_a_robot
@iam_not_a_robot
Скорость. Пока не надо парсить очень много и php пойдёт, но если вам надо 3 миллиона страниц в день парсить то php уже не будет успевать. Яндекс свой индексатор вроде на GO переписали а раньше он у них на питоне был написан.
Ответ написан
stas_agarkov
@stas_agarkov
Я программист
Я пишу парсеры на Java. Если на сайте встречается сложная функция на JavaScript, беру ее код и исполняю во встроенном JavaScript движке. Интерфейс парсеров делаю на Swing.
Ответ написан
uvelichitel
@uvelichitel
habrahabr.ru/users/uvelichitel
На BNF еще можно писать и потом на yacc генерировать
Ответ написан
@nozzy
Silex, Symfony, Laravel, SQL
Учите Python в связке с Selenium.
Сам занимаюсь парсингом, про PHP пришлось забыть. Приходиться парсить много сайтов, которые написаны на Javascript, поэтому без Selenium никак.
Ответ написан
saboteur_kiev
@saboteur_kiev
build engineer
Изначально, парсеры делали на perl, он для этого и был создан - работа с текстом.
Потом подключился PHP.
Сейчас еще python и javascript.

Отдельно помогают регулярки.
На других языках особого смысла делать нет.
Хотя, еще на Си можно делать, для узкопрофильных задач.
Ответ написан
@vGrabko99
html, css, js, php, golang, mysql
Golang у меня парсит сейчас около 100 сайтов с фильмами и пихает в очередь. Потом с очереди Golang смотрит есть ли такое у меня на сайте и если нет то добавляет. Ну а сам сайтик на пхп
Ответ написан
@frees2
Без PHP невозможно полностью имитировать браузер. Нагрузка на сервер, за это.
Ответ написан
akubintsev
@akubintsev
Опытный backend разработчик
На reactphp уже делали парсер? Если нет, то и на ноду/питон переходить не вижу смысла. Я бы понял еще если бы речь шла о Go или Rust
Ответ написан
PavelUstyugov
@PavelUstyugov Автор вопроса
proger support
можно кстати вообще использовать готовый софт
content_downloader
Ответ написан
@Levhav
Возьмусь за разработку проектов любой сложности.
Можно генерировать парсеры на C++ с помощью LEX и YACC . Я с помощью этих инструментов сделал анализ простых SQL запросов. Для реализации CometQL, но так же эти инструменты используются для генерации парсеров в MySQL и SphinxQL.

В ряде случаев это гораздо эффективнее чем использовать регулярные выражения.
Использовать не очень сложно. За 3 - 4 дня можно освоить.
Ответ написан
@coddy
FullStack Web Developer
C# + HtmlAgilePack.
Вариантов куча, на самом деле
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы