Парсинг html в python?

Question

artds @artds

Python

Парсинг html в python?

Парсю html, на странице ищу название и расширение файла

fr = requests('https://www.geooptic.ru/product/lasernyi-skanner-trimble-x7-kit-with-t10x').text
bb_strings = re.findall(r'files:.*.short_params', fr)

на выходе получается

fr = files:[{file_name:"obzor-skanerov-trimble.pdf",name:"Сравнение сканеров TRIMBLE X7, TX6, TX8 и тахеометра SX10 (2019 год)",type_id:eW},{file_name:"Trimble T10x tablet_Datasheet.pdf",name:"Trimble T10x tablet_Datasheet",type_id:4},{file_name:"Сравнение приборов Trimble 2022 X7 X12 SX12.pdf",name:"Сравнение приборов Trimble 2022 X7 X12 SX12",type_id:eW}]

как сделать что бы было?

Сравнение сканеров TRIMBLE X7, TX6, TX8 и тахеометра SX10 (2019 год) : obzor-skanerov-trimble.pdf

Вопрос задан более трёх лет назад
171 просмотр

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

7 комментариев

artds @artds Автор вопроса

пробовал не ищет csselect или xpath, в html коде он в jsscript

Написано более трёх лет назад

Александр @nexofix

artds,

import requests
from bs4 import BeautifulSoup
import re

# Получаем HTML-код страницы
url = 'https://www.geooptic.ru/product/lasernyi-skanner-trimble-x7-kit-with-t10x'
response = requests.get(url)
html = response.content

# Ищем строку с информацией о файлах
pattern = re.compile(r'files:\[(.*)\]')
match = pattern.search(str(html))

if match:
    # Извлекаем информацию о файлах
    files_info = match.group(1)

    # Создаем объект BeautifulSoup
    soup = BeautifulSoup(files_info, 'html.parser')

    # Находим все элементы 'file_name' и 'name'
    file_names = soup.find_all('file_name')
    names = soup.find_all('name')

    # Выводим результат
    for file_name, name in zip(file_names, names):
        print(f"{name.text.strip()} : {file_name.text.strip()}")

Написано более трёх лет назад

artds @artds Автор вопроса

Александр, не находит все элементы file_names = soup.find_all('file_name') и names = soup.find_all('name') (

Написано более трёх лет назад

Александр @nexofix

artds,
Возможно проблема заключается в использовании другого имени тега 'file_name' и 'name' как вариант.

Если информация о файлах находится в JavaScript-коде, то можно попробовать библиотеку json для извлечения информации.

import requests
import json

# Получаем HTML-код страницы
url = 'https://www.geooptic.ru/product/lasernyi-skanner-trimble-x7-kit-with-t10x'
response = requests.get(url)
html = response.content

# Ищем строку с информацией о файлах
start = 'files:['
end = '],'
start_index = html.index(start) + len(start)
end_index = html.index(end, start_index)
files_str = html[start_index:end_index]

# Извлекаем информацию о файлах
files_info = json.loads('[' + files_str + ']')

# Выводим результат
for file_info in files_info:
    print(f"{file_info['name']} : {file_info['file_name']}")

Написано более трёх лет назад

artds @artds Автор вопроса

Александр,
ошибка на строку
start_index = html.index(start) + len(start)

Возникло исключение: TypeError
argument should be integer or bytes-like object, not 'str'
File "/home/artddss/python/em/de.py", line 12, in
start_index = html.index(start) + len(start)
TypeError: argument should be integer or bytes-like object, not 'str'

что не так делаю?

Написано более трёх лет назад
Александр @nexofix

artds,
Да, это из-за того, что метод index может быть вызван только на объекте типа bytes, а не на строке.
Нужно преобразовать строку html в объект типа bytes.
Сложно писать код без проверки, сейчас напишу исправление, если не поможет, то уже завтра гляну.

Написано более трёх лет назад

artds @artds Автор вопроса

import requests
import json

# Получаем HTML-код страницы
url = 'https://www.geooptic.ru/product/lasernyi-skanner-trimble-x7-kit-with-t10x'
response = requests.get(url).text
#html = response.content

# Ищем строку с информацией о файлах
start = 'files:['
end = '],'
start_index = response.index(start) + len(start)
end_index = response.index(end, start_index)
files_str = response[start_index:end_index]
print(files_str)

# Извлекаем информацию о файлах
files_info = json.loads('[' + files_str + ']')

# Выводим результат
for file_info in files_info:
    print(f"{file_info['name']} : {file_info['file_name']}")

теперь ошибка:

Возникло исключение: JSONDecodeError
Expecting property name enclosed in double quotes: line 1 column 3 (char 2)
File "/home/artddss/python/em/de.py", line 18, in
files_info = json.loads('[' + files_str + ']')
json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 1 column 3 (char 2)

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 207 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 536 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 490 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 279 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 504 просмотра
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 213 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 663 просмотра
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2023-02-27 21:06:38

igor6130 @igor6130

Есть предложение просто поставить BeautifulSoup и не мучить себя регулярными выражениями.

Ответ написан более трёх лет назад

7 комментариев

Парсинг html в python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт