yupiter7575
@yupiter7575
Python программист

Как сделать чтобы BeautifulSoup не форматировал html строку?

До этого момента bs4 полностью устраивал. Но вот возникла проблема, а точнее задача. На сервер загружается html документ, и нужно из него нужно взять все что находится в контейнере body, решил эту проблему так:
def GetBody(p):
    with io.open(p, 'r', encoding='utf-8') as f:
        soup = bs(f.read(), features='lxml')
        body = str(soup.find('body'))
    return body[6:-7]

Вроде все работает, но beautifulsoup форматирует строку в строгий синтаксис html5, а в файле может так же находится jinja2 или что-то подобное. Как сделать что бы bs не форматировал строку?
  • Вопрос задан
  • 69 просмотров
Решения вопроса 1
SoreMix
@SoreMix Куратор тега Python
yellow
Он не должен обрезать другие теги, ему без разницы, это просто текст. Пример файла?
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы