Лучший ЯП для парсинга веб-сайтов

Question

Андрей Кунцевич @titulusdesiderio

IT-специалист

Лучший ЯП для парсинга веб-сайтов

Последние несколько недель пишу веб-парсер на php. У меня и раньше закрадывались сомнения. Но, после прочтения этой статьи и комментариев к ней, я убедился, что нужно искать другой путь. А точнее другой язык.

Какой, по вашему мнению, ЯП (+Фреймворк/библиотека) лучше всего подходит именно для задачи парсинга веб-страниц?
Буду весьма благодарен за аргументированные ответы. А ещё больше за ссылки на статьи по использованию ЯП в этом направлении и/или на репозитории проектов по теме.

Немного о конкретной задаче, над решением которой я работаю: 50+ независимых сайтов (производителей определённых видов продукции), с которых нужно собрать базу их продуктов. Нужно не только 1 раз прогнать, но и повторять прогон хотя бы раз в день, или при появлении новых продуктов (а следовательно и дописывать код при появлении новых особенностей у новых продуктов). Ввиду большого количества сайтов (которое со временем будет только увеличиваться) необходима возможность масштабирования. При этом крайне важна унификация всех параметров.

Вопрос задан более трёх лет назад
27326 просмотров

Комментировать

Подписаться 41 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Профессиональная вёрстка на HTML и CSS

3 месяца

Далее
Stepik

Основы HTML и CSS

2 недели

Далее
OTUS

HTML/CSS

3 месяца

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 14

3 комментария

Андрей Кунцевич @titulusdesiderio Автор вопроса

Спасибо за аргументированный ответ.
Но похоже я всё-таки остановлюсь на Perl, ибо сейчас мой php-код на 30-40% состоит из перловских регекспов.

Написано более трёх лет назад
Андрей Кунцевич @titulusdesiderio Автор вопроса

Жаль нельзя поставить флаг «решение» к двум ответам. Ибо ваш ответ тоже заслуживает этот флаг.

Написано более трёх лет назад
Сергей @seriyPS

Скажем так, Erlang отлично подходит когда нужно сложную схему работы наворачивать (прокси/куки/рефереры, частые обращения к БД в процессе работы, регулировка скорости на лету, прокси-чекер, мониторинг, веб-интерфейс для управления процессом) и всё это в кучу потоков (у меня 500-800 потоков примерно). Если парсеры попроще, то наверное и любой ЯП подойдет.
Единственное что сразу посоветую — работайте с сетью асинхронно и не используйте потоки ОС для распараллеливания. Ну и регулярки я использую только если совсем чуть-чуть данных нужно извлечь. Стараюсь брать DOM парсер и XPath.

Написано более трёх лет назад

1 комментарий

Комментировать

2 комментария

Комментировать

1 комментарий

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+2 ещё

Простой
Как сделать горизонтальный скролл стрелками?
- 1 подписчик
- 05 нояб.
- 150 просмотров
0

ответов
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 159 просмотров
0

ответов
HTML

Простой
При клике на кастомную кнопку “Скачать” не происходит переход, хотя JS-обработчик отрабатывает. Как решить?
- 1 подписчик
- 29 окт.
- 174 просмотра
0

ответов
HTML

+1 ещё

Простой
Как создать карточки в рядах со смещением?
- 1 подписчик
- 28 окт.
- 120 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 170 просмотров
0

ответов
HTML

+1 ещё

Простой
Как в руководстве steam сделать обтекающий картинку текст?
- 1 подписчик
- 08 окт.
- 139 просмотров
1

ответ
HTML

+1 ещё

Средний
Скачал плагин image preview в вс коде, чтобы установить иконку сайта. Иконка появилась в браузере, но не появилась слева напротив строки. Почему так?
- 1 подписчик
- 30 сент.
- 155 просмотров
1

ответ
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 247 просмотров
0

ответов
HTML

+1 ещё

Простой
От какой технической характеристики компьютера зависит скорость работы сайта, указанного ниже?
- 1 подписчик
- 24 сент.
- 471 просмотр
2

ответа
HTML

+1 ещё

Простой
Как убрать линии у бейджиков в Markdown?
- 1 подписчик
- 23 сент.
- 211 просмотров
1

ответ
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

Специалист технической поддержки (чат)

WebSoft

от 50 000 до 70 000 ₽

Frontend Developer (React + Node.js)

Alfabet Service

от 1 000 до 2 000 $

Answer 1 · 2012-12-25 15:37:20

Как только возникает слово «парсинг», в первую очередь стоит вспоминать о Perl (Practical Extraction and Report Language). Для решения этой задачи там есть:

модули для работы с HTTP — как низкоуровневые, так и специальные, типа WWW::Mechanize — удобен, если надо написать скрипт, который последовательно выполняет какой-то набор операций (например надо автоматизировать какие-то действия пользователя web-интерфейсе, а API никакого не предусмотрено);
модули для асинхронной работы по HTTP (AnyEvent::HTTP) — позволяют написать робота, который без необходимости создавать множество тредов будет выполнять одновременно несколько запросов;
регулярные выражения — мощнейший инструмент для парсинга данных, и в perl его использование наиболее удобно (это часть синтаксиса языка);
библиотеки для разбора HTML в дерево (например HTML::Parser);

Python хороший скриптовый язык общего назначения, но для задач разбора данных код на Perl будет куда проще.

Answer 2 · 2012-12-26 01:56:57

У меня половина опыта работы — именно написание пауков и веб-парсеров.
Писал их и на PHP + CURL, потом на голом питоне + треды.
Потом узнал о Scrapy (асинхронный фреймворк для граббинга сайтов на Python) и на нём штук 5 независимых проектов реализовал, в том числе один, где нужно аггрегировать и периодически обновлять информацию с 20 различных форумов. Основная его проблема — он асинхронный, но однопоточный. Так что больше одного ядра им не нагрузить и долгий запрос к БД не сделать. А так очень хороший фреймворк.
Потом несколько пауков делал на Python с помощью Celery.
А совсем недавно переписал довольно сильно нагруженного паука (50-70Мбит/с через списки прокси) с Python + Celery на Erlang и понял, что это ОНО! Мало того, что стал работать в 2-3 раза быстрее, но понял, что для этой задачи что-то более подходящее сложно придумать.
Поясню — у паука на Erlang можно без остановки процесса, например, изменить число потоков, обновить код, перезагрузить конфиги. Можно на ходу отпрофилировать код чтобы узнать, почему скорость упала или что так нагружает CPU. Можно совмещать зеленые потоки, асинхронную работу с сетью и долгие запросы к БД. И всё это фактически из коробки. В конце концов, код получается более логичный.

Answer 3 · 2012-12-25 03:45:58

В PHP есть XPath, есть библиотеки аля PhpQuery, ну и т.д. Есть возможность запускать одновременно несколько запросов через multi curl. Так что можно организовать это все худо бедно нормально. Все то же самое и даже больше есть в питоне да и в любом другом языке. Так что для этой задачи подойдет любой язык, который вы знаете.

Answer 4 · 2012-12-25 03:25:50

ЯП в данной задаче суть третьестепенная задача после разбора html и поиска ключевых элементов.
Поскольку именно последняя задача самая главная, то и ориентироваться надо на нее — обычно кучка регулярок и некий контроллер для отработки вариаций и исключений, поскольку регулярки не идеальный инструмент для этого случая.

Я писал похожую систему для книжного агрегатора на php, но только лишь потому что WP.

Answer 5 · 2012-12-25 11:40:16

Николай Васильчук @Anonym

Программирую немного )

Какой, по вашему мнению, ЯП лучше всего подходит именно для задачи <любая_задача>?
Тот, который вы знаете лучше всего.

Ответ написан более трёх лет назад

2 комментария

Answer 6 · 2012-12-25 08:09:49

XaMuT @XaMuT

Ruby и nokogiri — проще некуда ;)

Статья на хабре

Ответ написан более трёх лет назад

Комментировать

Answer 7 · 2012-12-25 08:53:02

Для такой задачи пару лет назад использовал Perl с подключением библиотек CPAN'а (в частности HTML::Parser), ибо очень понравилась его работа с regexp'ами. Посмотреть что-то подобное можно тут или тут

Answer 8 · 2012-12-25 14:36:56

Что парсер Хабра глючит, может, так получится

$s = file_get_contents( 'yandex.html' );

$tidy = new tidy();
$tidy->parseString( $s, array(
    'output-xml'       => true,
    'clean'            => true,
    'numeric-entities' => true
), 'utf8' );

$tidy->cleanRepair();
$xml = simplexml_load_string( tidy_get_output( $tidy ) );

$adwords = $xml->xpath( '//*[@class="b-adv"]' );
var_dump( $adwords );
exit;

$tads = $xml->xpath( '//*[@id="tads"]' );
var_dump( $tads );
exit;

$a = $xml->xpath( '//a[@href]' );
//var_dump( $a );

array_walk( $a, function( $item ) {
    $href = $item->attributes()->href;
    if ( strpos( $href, 'start=' ) !== false )
        echo $href."\n";
    //var_dump( $attrs );
    //exit;
} );

Answer 9 · 2012-12-25 21:30:15

zarincheg @zarincheg

В PHP есть работа с DOM, XPath. Ну и регулярные выражения разумеется. Что еще надо =)

Ответ написан более трёх лет назад

Комментировать

Answer 10 · 2012-12-25 14:33:24

Возможно, Вам пригодится вот этот тестовый фрагмент кода, которым я искал блоки диретка на страницах Яндекса.

<source lang="php">
<?php

$s = file_get_contents( 'yandex.html' );

$tidy = new tidy();
$tidy->parseString( $s, array(
    'output-xml'       => true,
    'clean'            => true,
    'numeric-entities' => true
), 'utf8' );

$tidy->cleanRepair();
$xml = simplexml_load_string( tidy_get_output( $tidy ) );

$adwords = $xml->xpath( '//*[class="b-adv"]' );
var_dump( $adwords );
exit;

$tads = $xml->xpath( '//*[id="tads"]' );
var_dump( $tads );
exit;

$a = $xml->xpath( '//a[href]' );
//var_dump( $a );

array_walk( $a, function( $item ) {
    $href = $item->attributes()->href;
    if ( strpos( $href, 'start=' ) !== false )
        echo $href."\n";
    //var_dump( $attrs );
    //exit;
} );

?>
</source>

Answer 11 · 2012-12-25 16:03:48

Алексей Акулович @AterCattus

Люблю быстрый backend

Можно никуда не уходя с PHP выбрать, что больше нравится.
Ну и подробнее по SHD и phpQ.

Ответ написан более трёх лет назад

Комментировать

Answer 12 · 2012-12-26 10:13:56

Пользовался для парсинга сайтов библиотекой Qt + QtWebKit. Замечательно предоставляет весь DOM, а так же можно вытаскивать текущие размеры и координаты фрэймов и вообще элементов страницы.

Answer 13 · 2012-12-27 11:20:44

KEKSOV @KEKSOV

Появилась хорошая хабро статья по этой теме

Ответ написан более трёх лет назад

Комментировать

Answer 14 · 2013-12-17 19:37:21

mikiAsano @mikiAsano

Использую Java и библиотеку jSpout

Ответ написан более трёх лет назад

Комментировать

Answer 15 · 2017-11-16 08:53:52

Evgen @Verz1Lka

Web scraping expert

python + scrapy.org

Ответ написан более трёх лет назад

Комментировать

Лучший ЯП для парсинга веб-сайтов

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт