Вопрос на обсудить.
Недавно забирал данные с 50 html документов и без проблем найдя нужные контейнеры и поняв их структуру забирал все данные (шаблонов 8 у меня получилось). Даже по скорости все вышло приятно 900 колонок в df улетели за секунду.
И мне просто интересно в чем тогда суть bs4? Он вроде самостоятельно интерпретирует весь документ по тэгам. И мне интересно где это полезно?
Пока как мне кажется в скорости разработки, те же регулярки под каждый тэг отдельно составлять не то чтобы долго, но муторно. + ситуации где в тэге контейнера несколько нужных выражений, там какие-то танцы с сохраняющими группами и бубнами прилагались, решение кривым вышло слегка но решилось и это.
Алексей Уколов, "Russian hackers pwn your webapp." )))
спасибо за ссылку на топик
upd: ОЧЕНЬ ИНФОРМАТИВНО КОНЕЧНО
upd2: там есть все-таки что-то полезное...
bs4 и regex -нельзя сравнивать. bs4 это интерфейс для работы с html, xml документами, а regex - это инструмент для работы с паттернами в тексте.
Обычно их используют вместе, я не припомню что бы я использовал BeautifulSoup без регулярок.
HTML - структурированный документ. Для эффективного взаимодействия со структурой есть BeautifulSoup для эффективного взаимодействия с элементом структуры текстом есть regex.