Большая куча пробелов при парсинге html таблицы, как избавиться?

Question

Михаил Мунтян @limontasher

Начинающий программист

Большая куча пробелов при парсинге html таблицы, как избавиться?

Сижу паршу сайт, пришел к почти итогу, и при парсинге, элементы из столбца n под тэгом td парсятся с кучей пробелов, можно ли как нибудь от них избавиться?

Код:

import requests
from bs4 import BeautifulSoup as BS

s = requests.Session()

auth_html = s.get()
auth_bs = BS(auth_html.content, "html.parser")
csrf = auth_bs.select("meta[name=csrf-token]")[0]["content"]

payload = {
    "_token": csrf,
    "email": "",
    "password": ""
}

answ = s.post("", data = payload)

for i in range(1, 37): # pagenation
    parse = s.get(f"")

    soup = BS(parse.content, "lxml")
    items = soup.find_all(class_="clickable-row")

    for i in items:
        item = i.find_all_next("td")

        if item[6].parent.find(class_="editMarketplaceCategoryBlock") == None:
                print("""ID: {}
    Каталог: {}
    Название категории: {}
    Родители категории: {}
    Связь с категорией маркетплейса: {}\n""".format(item[2].text.strip(),
                                                   item[3].text.strip(),
                                                   item[4].text.strip(),
                                                   item[5].text.replace("\n", "").replace(" ", ""),
                                                   "Не заполнено"))

        else:
            print("""ID: {}
    Каталог: {}
    Название категории: {}
    Родители категории: {}
    Связь с категорией маркетплейса: {}\n""".format(item[2].text.strip(),
                                                           item[3].text.strip(),
                                                           item[4].text.strip(),
                                                           item[5].text.replace("\n", ""),
                                                           item[6].parent.find(class_="editMarketplaceCategoryBlock").text.replace("\n", "").replace(" ", "")))

    break

Вывод примерно таков:

ID: 3
    Каталог: Самсон
    Название категории: Бумага белая марок А, В, С
    Родители категории:                     Офис                            /                                Бумага для офисной техники

Вопрос задан более трёх лет назад
191 просмотр

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 244 просмотра
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 265 просмотров
2

ответа
Python

Простой
В чем ошибка в использовании ft.ResponsiveView в данном коде?
- 1 подписчик
- 08 апр.
- 93 просмотра
1

ответ
Python

Простой
Можно ли указывать во flet heigh и width через проценты?
- 1 подписчик
- 02 апр.
- 111 просмотров
1

ответ
Python

Простой
Как правильно позиционировать элементы во flet?
- 1 подписчик
- 02 апр.
- 101 просмотр
1

ответ
Python

Простой
Почему может не отображаться страница во view(flet)?
- 1 подписчик
- 25 мар.
- 123 просмотра
1

ответ
Python

Средний
Asyncio + PySide6 + Telethon: список чатов и треды грузятся 30 минут — где искать причину?
- 2 подписчика
- 16 мар.
- 472 просмотра
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 4 подписчика
- 05 мар.
- 1016 просмотров
4

ответа
Python

Простой
Как запретить удаление полей класса?
- 1 подписчик
- 27 февр.
- 327 просмотров
1

ответ
Парсинг

Простой
Как спарсить Интернет Магазин?
- 1 подписчик
- 27 февр.
- 381 просмотр
4

ответа
Показать ещё Загружается…

Python developer

ITK academy • Краснодар

от 220 000 до 300 000 ₽

Python Developer

ITK academy • Краснодар

от 75 000 ₽

Junior AI Automation Engineer / AI-инженер (junior)

OPENCITY • Москва

от 50 000 ₽

Answer 1 · 2022-02-23 14:40:36

import re
data = '''ID: 3
    Каталог: Самсон
    Название категории: Бумага белая марок А, В, С
    Родители категории:                     Офис                            /      '''

out = re.sub(' +', ' ', data)
print(out)

#ID: 3
# Каталог: Самсон
# Название категории: Бумага белая марок А, В, С
# Родители категории: Офис /

Большая куча пробелов при парсинге html таблицы, как избавиться?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт