@burov0798
Пытаюсь изучать php\js

Как получить из страницы только текст без тэгов и стилей?

Добрый день. Могу ли я с помощью php+curl получить только текст со страницы без html\css\js ?
  • Вопрос задан
  • 296 просмотров
Пригласить эксперта
Ответы на вопрос 2
Rsa97
@Rsa97
Для правильного вопроса надо знать половину ответа
Берёте Simple HTML DOM Parser, передаёте ему загруженную страницу и смотрите plaintext.
Но, если страница формируется динамически в браузере, то такой способ не сработает.
Ответ написан
firedragon
@firedragon
Не джун-мидл-сеньор, а трус-балбес-бывалый.
Попробуйте безголовый браузер, код в принципе адаптируется и под php
https://github.com/php-webdriver/php-webdriver

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument("--start-maximized")

driver = webdriver.Chrome(chrome_options=options,executable_path='D:/Java/TestChrome/lib/chromedriver.exe')

driver.get("https://www.zoom.com.br/ar-condicionado/todos")
wait = WebDriverWait(driver, 20)

stores = wait.until(EC.presence_of_all_elements_located((By.XPATH,'//span[@class="storeCount-txt"]')))
print("test : " + stores[0].get_attribute('innerText'))
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы