В чём особенность парсинга с помощью Beautiful Soup?

Question

Soul1 @Soul1

В чём особенность парсинга с помощью Beautiful Soup?

Доброго времени суток ! Подскажите, в чём преимущество парсинга с помощью Beautiful Soup ? Отличие в расширенном функционале по сравнению со стандартными методами ? Отличие в скорости парсинга ? Или может он для сложного парсинга предназначен, а для простого можно обойтись стандартными методами ?
Например есть страница сайта, я могу обычным способом её сохранить, затем получить содержимое файла в текстовом виде и осуществить поиск через стандартный строковый метод find(). В чём этот способ проигрывает решению этой же задачи с использованием Beautiful Soup ?

Вопрос задан более трёх лет назад
174 просмотра

10 комментариев

Подписаться 1 Простой 10 комментариев

Soul1 @Soul1 Автор вопроса

Dr. Bacon, я получил со списка страниц необходимые данные по заданному тэгу, как ещё это называется ?

Написано более трёх лет назад
Soul1 @Soul1 Автор вопроса

Dr. Bacon, зачем писать, если вам нечего ответить по существу ?

Написано более трёх лет назад
Soul1 @Soul1 Автор вопроса

Dr. Bacon,
Вот зачем ты задаешь такой вопрос, на которые можно было самостоятельно найти ответ?
- задал, потому что не нашёл ответа.

хочу и комментирую
- я только рад ответам с аргументами, но ваши первые два комментария аргументов не содержат, только субъективное мнение. Я новичок, вы (возможно) имеете некий опыт и знания, вы нашли время, чтобы оставить свой комментарий, но посчитали выше своего достоинства привести аргументы ? Меня это удивляет.

пример простейшего задания - есть список товаров, получить название, цену, ссылку и если есть, картинки. Список содержится в блоке с классом products, кроме этого в этом же блоки есть ссылки не на товары, их игнорировать.
- вот это уже аргументированный ответ, почему нельзя было так сразу написать ? В пояснении к своему вопросу я предположил, что может быть одно из отличий Beautiful Soup в том, что он предназначен именно для сложных задач. Спасибо, что привели пример, который подтвердил мою догадку.

Написано более трёх лет назад
Soul1 @Soul1 Автор вопроса

Dr. Bacon, снова субъективное мнение )) Для меня на данном этапе обучения она не очень простая.

Написано более трёх лет назад
Сергей Ильин @sunsexsurf

Soul1, jна простая хотя бы потому что решена до вас миллион раз. и то, что вы не можете воспользоваться результатами коллективного разума, говорит не о том, что задача сложная. еще раз: она решена, неоднократно и разными путями. вы же говорите "ох, какие трудные пути, по ним ходить надо", забывая, что пути эти протоптаны, заасфаьтированы и освещены. но да, ходить по ним надо самому.

Написано более трёх лет назад
Soul1 @Soul1 Автор вопроса

Сергей Ильин, нет, она сложная в сравнении с теми целями, которые сейчас передо мной стоят, а именно - спарсить всего лишь текстовые данные, а не данные разных типов. Всё что я хотел узнать: целесообразно ли использование сложных инструментов наподобие Beautiful Soup для этой задачи и будет ли, например, выигрыш в скорости по сравнению с поиском через стандартный строковый метод find. Потому что на изучение библиотеки нужно время, а через find я уже спарсил данные, там код в несколько строк (но это может понадобиться сделать ещё раз). Вот пока человек выше не написал пример мне даже не пришло в голову, что можно парсить разные типы данных, для меня html страница это набор текста. Я совсем новичок. Как видите знаний маловато даже для формулировки вопроса )

Написано более трёх лет назад
Сергей Ильин @sunsexsurf

Soul1, это говорит не в вашу пользу, потому как перед тем, как задать вопрос, стоит почитать, что о нем пишут. И да, прироста по скорости не будет. но будет вменяемое удобство. вы же еще не сталкивались с регулярками?

Написано более трёх лет назад
Soul1 @Soul1 Автор вопроса

Сергей Ильин, как раз в статье про парсинг видел этот термин, но не в курсе, что это такое. Библиотеку с регулярными выражениями не изучал ещё.

Написано более трёх лет назад
Сергей Ильин @sunsexsurf

Soul1, Про регулярки на Хабре

Написано более трёх лет назад
Soul1 @Soul1 Автор вопроса

Сергей Ильин, благодарю !

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Stepik

Парсинг на Python для начинающих

2 недели

Далее
Хекслет

Фронтенд-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик PRO

12 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 373 просмотра
2

ответа
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 252 просмотра
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб.
- 527 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 392 просмотра
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 202 просмотра
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 276 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 208 просмотров
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 211 просмотров
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 305 просмотров
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 141 просмотр
1

ответ
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Екатеринбург

от 127 500 ₽

Разработчик JavaScript/NodeJS, специалист технической поддержки

A-Parser

от 600 до 800 $

Python Developer

Strikt

от 100 000 до 150 000 ₽

Dr. Bacon, я получил со списка страниц необходимые данные по заданному тэгу, как ещё это называется ?
Dr. Bacon, зачем писать, если вам нечего ответить по существу ?
Dr. Bacon,
Вот зачем ты задаешь такой вопрос, на которые можно было самостоятельно найти ответ?
- задал, потому что не нашёл ответа.

хочу и комментирую
- я только рад ответам с аргументами, но ваши первые два комментария аргументов не содержат, только субъективное мнение. Я новичок, вы (возможно) имеете некий опыт и знания, вы нашли время, чтобы оставить свой комментарий, но посчитали выше своего достоинства привести аргументы ? Меня это удивляет.

пример простейшего задания - есть список товаров, получить название, цену, ссылку и если есть, картинки. Список содержится в блоке с классом products, кроме этого в этом же блоки есть ссылки не на товары, их игнорировать.
- вот это уже аргументированный ответ, почему нельзя было так сразу написать ? В пояснении к своему вопросу я предположил, что может быть одно из отличий Beautiful Soup в том, что он предназначен именно для сложных задач. Спасибо, что привели пример, который подтвердил мою догадку.
Dr. Bacon, снова субъективное мнение )) Для меня на данном этапе обучения она не очень простая.
Soul1, jна простая хотя бы потому что решена до вас миллион раз. и то, что вы не можете воспользоваться результатами коллективного разума, говорит не о том, что задача сложная. еще раз: она решена, неоднократно и разными путями. вы же говорите "ох, какие трудные пути, по ним ходить надо", забывая, что пути эти протоптаны, заасфаьтированы и освещены. но да, ходить по ним надо самому.
Сергей Ильин, нет, она сложная в сравнении с теми целями, которые сейчас передо мной стоят, а именно - спарсить всего лишь текстовые данные, а не данные разных типов. Всё что я хотел узнать: целесообразно ли использование сложных инструментов наподобие Beautiful Soup для этой задачи и будет ли, например, выигрыш в скорости по сравнению с поиском через стандартный строковый метод find. Потому что на изучение библиотеки нужно время, а через find я уже спарсил данные, там код в несколько строк (но это может понадобиться сделать ещё раз). Вот пока человек выше не написал пример мне даже не пришло в голову, что можно парсить разные типы данных, для меня html страница это набор текста. Я совсем новичок. Как видите знаний маловато даже для формулировки вопроса )
Soul1, это говорит не в вашу пользу, потому как перед тем, как задать вопрос, стоит почитать, что о нем пишут. И да, прироста по скорости не будет. но будет вменяемое удобство. вы же еще не сталкивались с регулярками?
Сергей Ильин, как раз в статье про парсинг видел этот термин, но не в курсе, что это такое. Библиотеку с регулярными выражениями не изучал ещё.

В чём особенность парсинга с помощью Beautiful Soup?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт