В чем преимущества bs4 перед регулярками?

Question

Feor_slen @Feor_slen

В чем преимущества bs4 перед регулярками?

Вопрос на обсудить.
Недавно забирал данные с 50 html документов и без проблем найдя нужные контейнеры и поняв их структуру забирал все данные (шаблонов 8 у меня получилось). Даже по скорости все вышло приятно 900 колонок в df улетели за секунду.
И мне просто интересно в чем тогда суть bs4? Он вроде самостоятельно интерпретирует весь документ по тэгам. И мне интересно где это полезно?

Пока как мне кажется в скорости разработки, те же регулярки под каждый тэг отдельно составлять не то чтобы долго, но муторно. + ситуации где в тэге контейнера несколько нужных выражений, там какие-то танцы с сохраняющими группами и бубнами прилагались, решение кривым вышло слегка но решилось и это.

Я первокурсник, не браните сильно)

Вопрос задан более двух лет назад
138 просмотров

5 комментариев

Подписаться 1 Простой 5 комментариев

Помогут разобраться в теме Все курсы

ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее
Stepik

Поколение Python: курс для профессионалов

1 неделя

Далее
Хекслет

Java-разработчик

10 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт. 2025
- 338 просмотров
3

ответа
Регулярные выражения

+1 ещё

Простой
Как убрать все точки из текстового файла с помощью регулярных выражений в Notepad++?
- 1 подписчик
- 03 сент. 2025
- 288 просмотров
1

ответ
Регулярные выражения

+1 ещё

Средний
Почему один регэксп работает, а второй нет?
- 1 подписчик
- 03 сент. 2025
- 314 просмотров
4

ответа
Регулярные выражения

Простой
Как работает ленивость в регулярных выражениях?
- 2 подписчика
- 31 авг. 2025
- 263 просмотра
2

ответа
Beautiful Soup

Простой
Почему Soup.find возвращает None?
- 1 подписчик
- 03 авг. 2025
- 112 просмотров
1

ответ
Регулярные выражения

Простой
Как удалить часть слов?
- 1 подписчик
- более года назад
- 262 просмотра
1

ответ
Регулярные выражения

Простой
Как оставить в строке при помощи регулярки (+еще)?
- 1 подписчик
- более года назад
- 173 просмотра
1

ответ
PHP

+1 ещё

Простой
Как в PHP найти строку, которая содержит или не содержит символ?
- 1 подписчик
- более года назад
- 279 просмотров
2

ответа
Регулярные выражения

+1 ещё

Средний
Как сделать замену текста по ssh?
- 1 подписчик
- более года назад
- 188 просмотров
0

ответов
ВКонтакте

+1 ещё

Простой
Как с помощью регулярного выражения получить oid и id видео из ссылки?
- 1 подписчик
- более года назад
- 171 просмотр
2

ответа
Показать ещё Загружается…

Алексей Уколов, "Russian hackers pwn your webapp." )))
спасибо за ссылку на топик
upd: ОЧЕНЬ ИНФОРМАТИВНО КОНЕЧНО
upd2: там есть все-таки что-то полезное...
«Пользователь удалён», да не гуглится оно(((
Feor_slen, https://www.google.com/search?q=bs4+vs+regexp&neww...

Answer 1 · 2024-06-20 10:04:52

bs4 и regex -нельзя сравнивать. bs4 это интерфейс для работы с html, xml документами, а regex - это инструмент для работы с паттернами в тексте.

Обычно их используют вместе, я не припомню что бы я использовал BeautifulSoup без регулярок.
HTML - структурированный документ. Для эффективного взаимодействия со структурой есть BeautifulSoup для эффективного взаимодействия с элементом структуры текстом есть regex.

В чем преимущества bs4 перед регулярками?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт