Задать вопрос
@hesy

Как эффективно парсить страницы?

Есть база ссылок около 100к одного сайта, задача: по каждой ссылке спарсить текст между определенными тегами.

Вопрос, как это лучше реализовать?
Подойдет для этой задачи php или лучше использовать python?
  • Вопрос задан
  • 164 просмотра
Подписаться 1 Простой Комментировать
Помогут разобраться в теме Все курсы
  • OTUS
    iOS Developer
    12 месяцев
    Далее
  • AndroidSprint
    Попробуйте себя в роли разработчика за 10 дней
    1 неделя
    Далее
  • Stepik
    Парсинг на Python для начинающих
    2 недели
    Далее
Решения вопроса 3
@Verz1Lka
Web scraping expert
Рекомендую использовать фреймворк для парсинга scrapy на python
Ответ написан
@maksam07
Могу посоветовать 2 библиотеки:
rmccue/requests - для парсинга самой страницы
paquettg/php-html-parser - для разбора html кода

На счет производительности не знаю, но этот вариант лично мне удобен и я им пользуюсь на данный момент\

Совет: если будете парсить страницы в цикле, то всегда вконце цикла очищайте переменную, которой присваиваете запрос, типа:
while(1){
    $request = Requests::get( $url, $headers, $options );
    ...
    unset( $request );
}
Ответ написан
@hesy Автор вопроса
Эффективным оказался способ на Python в простой связке requests+bs4.
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 2
LazyTalent
@LazyTalent
Data Engineer, Freelancer
Да хоть BrainFuck, что лучше знаешь на том и пиши
Ответ написан
Комментировать
@max3wq
Из готовых могу посоветовать Content Downloader
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы