Как извлечь текст из тега и потом заменить его с помощью Soup Python?

Question

chrispsow @chrispsow

Как извлечь текст из тега и потом заменить его с помощью Soup Python?

Есть такой кусочек HTML кода:

<div class="f-subheader subheader f-subheader-sm" data-editable="true" data-main-class="subheader" data-param="subheader">
            <p>
             holding educativo internacional
            </p>
            <p>
             Academia STANDART LONDRES
            </p>
           </div>
           <div class="f-header header f-header-72" data-editable="true" data-main-class="header" data-param="header">
            <p>
             <br/>
            </p>
            <p>
             <br/>
            </p>
            <p>
             <br/>
            </p>
            <h1>
             Модные курсы и семинары
             <br/>
             парикмахеров, стилистов, визажистов, косметологов И мастеров маникюра
            </h1>
           </div>
           <div class="f-desc description f-desc-xl" data-editable="true" data-main-class="description" data-param="description">
            <p>
             <strong>
              ЕВРОПЕЙСКИЙ СТАНДАРТ ОБУЧЕНИЯ В Мексике и Колумбии
              <br/>
              ОТ ЭКСПЕРТОВ КРАСОТЫ ИЗ ЛОНДОНА
             </strong>
             <br/>
            </p>
           </div>
           <div class="buttons" data-main-class="buttons">
            <button class="btn f-btn btn-success" id="button3504888" style="color: #FFFFFF; background-color: #E31e24; " type="button">
             Ver todos los cursos
            </button>

Тот текст, что не на русском - был успешно извлечен, переведен и вставлен обратно
А тот, что не переведен - не был найден и соответсвенно не обработан.

Python скрипт:

soup = Soup(html, features="html.parser")
tags = ['span', 'p', 'b', 'a', 'div', 'li', 'h1', 'h2', 'h3', 'button', 'small', 'strong', 'td', 'img', 'input']

for tag in tags:
	for htmltag in soup.find_all(tag):
		try:
			# print(f'Text: {htmltag.text}, string: {htmltag.string}')
			if htmltag.string and len(htmltag.string) > 0:
				# if tag == 'span' and 'Copyright' in htmltag.string : continue
				# print(f'Tag <{tag}> String: {htmltag.string}')
				translated = translator.translate(htmltag.string, dest=lang)
				print(f'<{tag}> {htmltag.string} > {translated.text}')
				htmltag.string.replace_with(translated.text)
			elif tag == 'img' and 'alt' in htmltag.attrs and len(htmltag["alt"]) > 0:
				# print(f'Tag <{tag}> Alt: {htmltag["alt"]}')
				translated = translator.translate(htmltag['alt'], dest=lang)
				print(f'<{tag}> {htmltag["alt"]} > {translated.text}')
				htmltag['alt'] = translated.text
			elif tag == 'input' and 'placeholder' in htmltag.attrs and len(htmltag["placeholder"]):
				# print(f'Tag <{tag}> Placeholder: {htmltag["placeholder"]}')
				translated = translator.translate(htmltag['placeholder'], dest=lang)
				print(f'<{tag}> {htmltag["placeholder"]} > {translated.text}')
				htmltag['placeholder'] = translated.text
		except Exception as e:
			pass
			print(f'*** ERROR Tag: {tag} , htmltag: {htmltag} , Str: {htmltag.string} / Err: {e} ***')
			errors += 1

Через htmtagl.text он находит текст, но и так же находит и код тега < script > если он в блоке < div >, чего не делает метод htmltag.string
А через .string он, как я понял, не находит текст, который включает в себя < /br > или еще что-то
Как извлекать текст и заменять его потом во всех тегах, в которых он есть?

Вопрос задан более трёх лет назад
234 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- вчера
- 60 просмотров
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 211 просмотров
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 247 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 160 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 135 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 260 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 146 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 145 просмотров
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 150 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 267 просмотров
2

ответа
Показать ещё Загружается…

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

Как извлечь текст из тега и потом заменить его с помощью Soup Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт