Как эффективно парсить страницы?

Question

hesy @hesy

Парсинг

Как эффективно парсить страницы?

Есть база ссылок около 100к одного сайта, задача: по каждой ссылке спарсить текст между определенными тегами.

Вопрос, как это лучше реализовать?
Подойдет для этой задачи php или лучше использовать python?

Вопрос задан более трёх лет назад
164 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Stepik

Парсинг на Python для начинающих

2 недели

Далее
Skillfactory

Профессия Python-разработчик PRO

12 месяцев

Далее
Хекслет

Фронтенд-разработчик

10 месяцев

Далее

Решения вопроса 3

1 комментарий

Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 403 просмотра
2

ответа
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 291 просмотр
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб.
- 611 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 414 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 211 просмотров
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 287 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 209 просмотров
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 213 просмотров
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 313 просмотров
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 142 просмотра
1

ответ
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Екатеринбург

от 127 500 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Developer (Senior)

Strikt

от 100 000 до 150 000 ₽

Answer 1 · 2019-03-04 13:17:17

Evgen @Verz1Lka

Web scraping expert

Рекомендую использовать фреймворк для парсинга scrapy на python

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2019-03-04 13:55:22

Могу посоветовать 2 библиотеки:
rmccue/requests - для парсинга самой страницы
paquettg/php-html-parser - для разбора html кода

На счет производительности не знаю, но этот вариант лично мне удобен и я им пользуюсь на данный момент\

Совет: если будете парсить страницы в цикле, то всегда вконце цикла очищайте переменную, которой присваиваете запрос, типа:

while(1){
    $request = Requests::get( $url, $headers, $options );
    ...
    unset( $request );
}

Answer 3 · 2019-03-16 16:32:55

hesy @hesy Автор вопроса

Эффективным оказался способ на Python в простой связке requests+bs4.

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2019-03-04 13:19:23

Дмитрий @LazyTalent

Data Engineer, Freelancer

Да хоть BrainFuck, что лучше знаешь на том и пиши

Ответ написан более трёх лет назад

Комментировать

Answer 5 · 2019-03-04 14:33:42

max3wq @max3wq

Из готовых могу посоветовать Content Downloader

Ответ написан более трёх лет назад

Комментировать

Как эффективно парсить страницы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт