Как правильно спарсить характеристики с сайта и записать в отдельные колонки эксель?

Question

Groslog @Groslog

Как правильно спарсить характеристики с сайта и записать в отдельные колонки эксель?

Учусь писать парсеры, как мне cделать чтобы с сайта собиралась вся характеристика и записывалась в отдельные колонки эксель? ( пример ниже )

Проблема в том что в каждой карточке могут быть разные характеристики и в разном порядке (если в карточке нет такой характеристики этот столбец оставить пустым или написать no)

Пример

Код на сайте выглядит вот так
Скриншот фрагмента кода удален модератором.
думаю что нужно сделать списком(масивом) тогда нужен алгоритм

если повтор -> то он добавляет в эту строку

если новая -> то создает новую строку.

Код парсера:

# -*- coding: utf-8 -*-
import csv
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
from time import sleep

headers = {"user-agent": UserAgent().random}

def get_request(url):
    r = requests.get(url, headers=headers)
    return r.text


def get_content(html):
    soup = BeautifulSoup(html, 'lxml')
    category = soup.find('ul', class_='catalogue-root-menu__list catalogue-root-menu__list_inline')

    # копируем все ссылки на категории
    for i in category:

        link = 'https://star-tex.ru' + i.find('a').get('href') # получаю каждую как ссылку
        r = requests.get(link, headers=headers)  # захожу в каждую

        soup = BeautifulSoup(r.text, 'lxml')
        page = soup.find_all('li', class_='pagination-page')[-1].text
        # чекаю сколько там есть страниц
        for numb in range(1, int(page) + 1):

            urls = link + f'page_{numb}/' # добавляю к ссылке кол-во страниц
            print(f'Парсинг страницы {numb}')

            r = requests.get(urls, headers=headers) # заход в каждую страницу
            soup = BeautifulSoup(r.text, 'lxml')

            for k in soup.find('div', class_='item-groups-list-container').find_all('div', class_='item-groups-list-item'):
                yield 'https://star-tex.ru/' + k.find('a', class_='link').get('href')

def get_content_parser(html):
    soup = BeautifulSoup(html, 'lxml')

    df = []

    head = soup.find('div', class_='item-group-data__header')
    detail = soup.find('div', class_='item-group-data__details')

    try:
        name = head.find('h1', class_='item-group-data__name').text.strip()
    except:
        name = 'No name'

    try:
        price = head.find('span', class_='integer').text.strip()
    except:
        price = '000'
    try:
        price_cop = head.find('span', class_='fractional').text.strip()
    except:
        price_cop = '00'

    try:
        hh = detail.find('div', class_='item-group-params-container')
        for i in hh.find('ul', class_='item-group-params'):
            title_har = i.find('span', class_='item-group-params__item-title').text.strip()
            no_tit_har = i.find('span', class_='item-group-params__item-value').text.replace("\xa0", '').strip()
            df.append((title_har, no_tit_har))


    except:
        pass

    print(df)
    data = {
            'name': name,
            'price': price + '.' + price_cop,

        }

    return data


# def csv_wr():
#     with open("test_pars.csv", "w", newline='') as file:
#         writer = csv.writer(file, delimiter=";")
#         writer.writerow(("Название", "Цена", "Характеристика"))
#
# def save_content(data):
#     with open("test_pars.csv", "a", newline='') as file:
#         writer = csv.writer(file, delimiter=";")
#
#         writer.writerow( [data['name'], data['price'], data['char']] )

def main():
    url = 'https://star-tex.ru/'
#    csv_wr()
    link = get_content(get_request(url))

    for i in link:

        html = get_request(i)
        data = get_content_parser(html)
#        save_content(data)

if __name__ == '__main__':
    main()

Вопрос задан более двух лет назад
488 просмотров

1 комментарий

Подписаться 1 Средний 1 комментарий

Решения вопроса 1

2 комментария

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Как сделать свой сервер для хранения картинок на flask?
- 1 подписчик
- 3 часа назад
- 83 просмотра
2

ответа
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- нет подписчиков
- 16 авг.
- 113 просмотров
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 123 просмотра
1

ответ
Python

Простой
Что можно ускорить в коде решателя игры крестики нолики?
- 1 подписчик
- 16 авг.
- 181 просмотр
0

ответов
Python

Простой
Как подключиться по SMTP к Reg ru?
- 1 подписчик
- 15 авг.
- 137 просмотров
0

ответов
Python

+1 ещё

Простой
Как имитировать нажатие пкм в неактивное окно DirectX?
- 1 подписчик
- 15 авг.
- 45 просмотров
1

ответ
Python

+1 ещё

Простой
Как настроить группы при создании нового пользователя в битриксе?
- 1 подписчик
- 14 авг.
- 122 просмотра
0

ответов
Python

+1 ещё

Простой
При добавления строчки @commands.has_permissions в терминале при запуске выдает ошибку?
- 1 подписчик
- 14 авг.
- 91 просмотр
0

ответов
Парсинг

Простой
Как анти-бот системы определяют ботов и как от них защищаться?
- 1 подписчик
- 13 авг.
- 186 просмотров
1

ответ
Python

+1 ещё

Простой
Можно ли отключить SSL сертификат при парсинге?
- 1 подписчик
- 13 авг.
- 137 просмотров
0

ответов
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python-разработчик (Senior)

BCraft

от 3 500 до 4 500 $

Answer 1 · 2022-11-10 11:47:15

Недавно решал подобную задачу, при парсинге характеристик товаров, получал результирующий файл в Excel, где помимо общих данных товара: наименование, цена, описания, картинки и т.д., все характеристики были разнесены по разным колонкам, как то так:

Для получения данных с сайта источника, тоже использовал библиотеку BeautifulSoup,

Фрагмент HTML кода с характеристиками товара на сайте источнике для парсинга:

<div id="content_features" class="ty-wysiwyg-content content-features">
	<div class="ty-product-feature">
		<div class="ty-product-feature__label">Ширина:</div>
		<div class="ty-product-feature__value">1400<span class="ty-product-feature__suffix"> мм</span></div>
	</div>
	<div class="ty-product-feature">
		<div class="ty-product-feature__label">Высота:</div>
		<div class="ty-product-feature__value">1345<span class="ty-product-feature__suffix"> мм</span></div>
	</div>
	<div class="ty-product-feature">
		<div class="ty-product-feature__label">Глубина:</div>
		<div class="ty-product-feature__value">880<span class="ty-product-feature__suffix"> мм</span></div>
	</div>	
</div>

Фрагмент кода получения характеристик товара:

propsBody = []
        try:
            propsBody = soup.find('div', {'id' : 'content_features'}).findAll('div', class_='ty-product-feature')
        except:
            pass
        if len(propsBody) > 0:
            #self.properties.clear()
            propsItems = []
            for props in propsBody:
                item = {
                    'label' : props.find('div', class_='ty-product-feature__label').get_text(strip=True),
                    'value' : props.find('div', class_='ty-product-feature__value').get_text(strip=True)
                }
                propsItems.append(item)
            self.properties = propsItems

В результате, полученные данные характеристик, для каждого товара в виде словаря, типа:

[{"label": "Высота:", "value": "220мм"}, 
{"label": "Глубина:", "value": "295мм"}, 
{"label": "Материал:", "value": "Сталь"},
{"label": "Вес:", "value": "4,3кг"},
{"label": "Длина:", "value": "650мм"}]

Где в label - название характеристики, а в value – значение.

Учитывая, что у всех товаров разные типы, названия характеристик, собирал их в множество – так как в множестве могут быть только уникальные значения. Затем, при записи данных в Excel, как предлагал выше shurshur, автоматически добавлял колонки из полученных данных.

Вот пример класса, который принимает полученные в результате парсинга данные товаров, и записывает их Excel.
В данном прмере Вы можете увидеть, что помимо общих полей – для данных товара, как название, цена, описание и т.д, из названий характеристик в цикле добавляются колонки, куда записываются значения характеристик товара:

spoiler

class ExcelFile:
    data = {}
    labels = set() # множество, перменная, свойство для названий характеристик товаров

    def __init__(self, data):
        self.data = data 

    def get(self):
        # В цикле проходим по данным полученным в результате парсинга,
        # и собираем названия характеристик в множество
        for item in self.data:
            if len(item['properties']) > 0:
                for prop in item['properties']:
                    self.labels.add(prop['label'])

        book = openpyxl.Workbook()
        sheet = book.active
        
        # Поля, колонки Excel - файла, для разных данных товаров
        sheet['A1'].value = 'src'
        sheet['B1'].value = 'name'
        sheet['C1'].value = 'category'
        sheet['D1'].value = 'art_namber'
        sheet['E1'].value = 'price'
        sheet['F1'].value = 'main'
        sheet['G1'].value = 'more'
        sheet['H1'].value = 'descrip'
        sheet['I1'].value = 'JSON_properties'
        sheet['J1'].value = 'video'
        sheet['K1'].value = 'docs'
        # Добавляем дополнительные колонки в Excel из названий характеристик
        if len(self.labels) > 0:
            nam = 12
            for nameProp in self.labels:
                sheet.cell(row=1, column=nam, value=nameProp)
                nam += 1
        row = 2
        # Записываем в строки Excel- файла данные товаров
        for res in self.data:
            sheet[row][0].value = res['src']
            sheet[row][1].value = res['name']
            sheet[row][2].value = res['category']
            sheet[row][3].value = res['art_namber']
            sheet[row][4].value = res['price']
            sheet[row][5].value = res['main']
            sheet[row][6].value = ','.join(res['more'])
            sheet[row][7].value = res['descrip']
            sheet[row][8].value = res['json']
            sheet[row][9].value = ','.join(res['video'])
            sheet[row][10].value = ','.join(res['docs'])
            # Записываем значения характеристик товара в соответствующие названиям колонки Excel- файла
            if len(self.labels) > 0:
                namberCell = 12
                while namberCell < len(self.labels) + 12:
                    propLabel = sheet.cell(row=1, column=namberCell).value
                    for property in res['properties']:
                        if property['label'] == propLabel:
                            sheet.cell(row=row, column=namberCell).value = property['value']
                        else:
                            sheet.cell(row=row, column=namberCell)
                    namberCell += 1
            row += 1

        file_name = detNameExcelFile()
        book.save(file_name)
        book.close()

        return file_name

Возможно, данную задачу можно решить другим, более рациональным способом, но тем не менее -это способ работает.

Answer 2 · 2022-11-07 17:48:38

Например, можно автоматически создавать колонки под недостающие параметры по мере анализа. Можно завести словарь, который отображает названия характеристик в номер колонки, если при парсинге страницы обнаружена новая характеристика, которой в словаре нет - добавлять новую запись со следующим номером колонки. При создании новой строчки в выходнойм файле по именам параметров определять их позиции в массиве и подставлять.

Другой вариант: разные категории помещать на разные листы (в случае с csv писать в разные файлы, ну или перейти на xlsxwriter). В этом случае таблица будет не такой разреженной, что в некоторых случаях может быть более удобно удобно.

Как правильно спарсить характеристики с сайта и записать в отдельные колонки эксель?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт