@Shape_e
Начинающий говнокодер)

Как сделать так, чтоб парсер выводил только текст и сслыки без разметки Html?

Заранее извиняюсь за говнокод, я только начинаю :)
import requests
import bs4
import lxml

url = '*page_link*'
r = requests.get(url=url)
soup = bs4.BeautifulSoup(r.text, 'lxml')
quotes = soup.find_all('url', class_='*class_name*')
href = soup.find_all('a', class_ = '*class_name*')
print(quotes, href)
  • Вопрос задан
  • 276 просмотров
Решения вопроса 1
hottabxp
@hottabxp Куратор тега Python
Сначала мы жили бедно, а потом нас обокрали..
import requests
import bs4
import lxml

url = 'https://qna.habr.com'
r = requests.get(url=url)
soup = bs4.BeautifulSoup(r.text, 'lxml')
# quotes = soup.find_all('url', class_='*class_name*')
href = soup.find_all('a', class_ = 'question__title-link')
# print(quotes, href)

for x in href:
  link = x.get('href') # Получаем адрес ссылки
  text = x.text.strip() # Получаем текст ссылки и убираем лишние пробелы и переносы строк
  print(text+' - '+link)

Вывод:
Как запустить ffmpeg на GPU golang? - https://qna.habr.com/q/1033160
Стенд для изучения DevOps на базе Linux-серверов. С чего начать изучение? - https://qna.habr.com/q/1033364
...
Предварительная загрузка изображений wordpress? - https://qna.habr.com/q/1033300
Не могу зарегистрировать аккаунт стим через свой домен. Что делать? - https://qna.habr.com/q/1033248
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы