@Feor_slen

В чем преимущества bs4 перед регулярками?

Вопрос на обсудить.
Недавно забирал данные с 50 html документов и без проблем найдя нужные контейнеры и поняв их структуру забирал все данные (шаблонов 8 у меня получилось). Даже по скорости все вышло приятно 900 колонок в df улетели за секунду.
И мне просто интересно в чем тогда суть bs4? Он вроде самостоятельно интерпретирует весь документ по тэгам. И мне интересно где это полезно?

Пока как мне кажется в скорости разработки, те же регулярки под каждый тэг отдельно составлять не то чтобы долго, но муторно. + ситуации где в тэге контейнера несколько нужных выражений, там какие-то танцы с сохраняющими группами и бубнами прилагались, решение кривым вышло слегка но решилось и это.

Я первокурсник, не браните сильно)
  • Вопрос задан
  • 100 просмотров
Решения вопроса 1
Maksim_64
@Maksim_64
Data Analyst
bs4 и regex -нельзя сравнивать. bs4 это интерфейс для работы с html, xml документами, а regex - это инструмент для работы с паттернами в тексте.

Обычно их используют вместе, я не припомню что бы я использовал BeautifulSoup без регулярок.
HTML - структурированный документ. Для эффективного взаимодействия со структурой есть BeautifulSoup для эффективного взаимодействия с элементом структуры текстом есть regex.
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы