Почему при переносе информации с Питона в Excel обрубаются тексты?

Question

Nizier193 @Nizier193

Почему при переносе информации с Питона в Excel обрубаются тексты?

Я создал парсер, который забирает с сайта всю нужную информацию: описание, заголовок и картинки. Сайт https://sort-klubnika.ru/.
Там при переходе на страницу, высвечиваются заголовки, если перейти по ним, отображаются описания (объединенные тегами <p>), а также картинки.

Заголовки (A), картинки (C) и описания (B) я запихиваю в Excel таблицу (которая тоже прикреплена)
Но так получается, что когда я просматриваю описания, тексты просто обрубаются, причём, по моему мнению, в абсолютно разных местах.
К примеру возьмем B24, там текст обрубился на моменте "кусты могут не успеть прижиться до жары, поэтому целесообразнее".
Или B171 "большинству заболеваний, в условиях прохладного и".
Количество символов абсолютно разное, почему оно обрубается?

На ошибку, которая выскакивает на 176 запросе можно не обращать внимания, т.к она не столь важна.
Хотя если вы объясните её, я был бы очень признателен.

import requests
from bs4 import BeautifulSoup
import openpyxl
wb = openpyxl.load_workbook(filename = '123123.xlsx')
ws = wb.active

total = 0
def parser():
    global total
    titlb = []; hrefb = []
    response = requests.get("https://sort-klubnika.ru/sorta")
    response = response.content
    html = BeautifulSoup(response, "html.parser")
    title = html.find_all(itemprop="headline")
    for titla in title:
        titlb.append(titla.text)
    for hrefa in title:
        hrefb.append(hrefa.a.attrs['href'])
    l = 0
    description = []
    for i in range(5):
        img = []
        response1 = requests.get(hrefb[l])
        response1 = response1.content
        html1 = BeautifulSoup(response1, "html.parser")
        descripti = html1.find_all("p")
        html_photo = html1.find_all(loading="lazy")
        for descript in descripti:
            description.append(descript.text)
        for photob in html_photo:
            img.append(photob.get("src"))

        fftext = (', '.join(img))
        ftext = (', '.join(description))

        def pluses():
            prosminus = []
            prosminusa = html1.find_all("li")
            for prosminusb in prosminusa:
                prosminus.append(prosminusb.text)
            for k in range(5):
                prosminus.pop(-1)
            for a in range(11):
                prosminus.pop(0)


        print(titlb[0])
        print(description)
        #print(*prosminus)
        print(img)
        l += 1
        total += 1
        ws[f"A{total}"] = titlb[0]
        titlb.pop(0)
        ws[f"B{total}"] = ftext
        ws[f"C{total}"] = fftext
        description.clear()
        img.clear()

        q = 2
        for m in range(35):
            titlb = []; hrefb = []
            response = requests.get(f"https://sort-klubnika.ru/sorta/page/{q}")
            response = response.content
            html = BeautifulSoup(response, "html.parser")
            title = html.find_all(itemprop="headline")

            for titla in title:
                titlb.append(titla.text)
            for hrefa in title:
                hrefb.append(hrefa.a.attrs['href'])

            print(titlb)
            l = 0
            q += 1
            description = []
            for i in range(5):
                img = []
                response1 = requests.get(hrefb[l])
                response1 = response1.content
                html1 = BeautifulSoup(response1, "html.parser")
                descripti = html1.find_all("p")
                photos = html1.find_all(itemprop="url image")
                for descript in descripti:
                    description.append(descript.text)
                for phota in photos:
                    img.append(phota.get("src"))



                def pluses():
                    prosminus = []
                    prosminusa = html1.find_all("li")
                    for prosminusb in prosminusa:
                        prosminus.append(prosminusb.text)
                    for k in range(5):
                        prosminus.pop(-1)
                    for a in range(11):
                        prosminus.pop(0)

                print(titlb[0])
                print(description)
                l += 1
                total += 1
                print(total)
                fftext = (', '.join(img))
                ftext = (', '.join(description))
                print(img)
                ws[f"A{total}"] = titlb[0]
                ws[f"B{total}"] = ftext
                ws[f"C{total}"] = fftext
                titlb.pop(0)
                img.clear()

                wb.save("123123.xlsx")
                description.clear()
parser()

Некоторые детали кода закомментированы, их можно не рассматривать.
Ошибку, которая возникает на 176 запросе, можно тоже не рассматривать.

Вопрос задан более двух лет назад
71 просмотр

3 комментария

Подписаться 2 Средний 3 комментария

twobomb @twobomb

Точно обрубаются? Может вы экселем пользоваться не умеете?
На всякий случай выберите ячейку с текстом нажмите справа в строке формулы стрелку вниз чтобы показать все строки. Просто многострочный текст в строке формулы, отображается только первая строка, а ячейка может быть не на всю высоту....

Написано более двух лет назад
Nizier193 @Nizier193 Автор вопроса

twobomb, Никак нет! Питон в одну строку выводит весь текст, и переносит его в Excel. Я проверял.

Написано более двух лет назад
shurshur @shurshur

Nizier193, а нет ли там в description других тегов, кроме <p>? Тогда вполне логично, что их содержимое теряется. Кажется, вместо .text лучше использовать .get_text(), причём от всего контейнера с description.

Написано более двух лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+1 ещё

Простой
Как корректно обрабатывать объединённые ячейки?
- 2 подписчика
- 11 сент.
- 563 просмотра
0

ответов
Excel

Простой
Как заполнить таблицу с учетом данных с другой таблицы?
- 1 подписчик
- 01 сент.
- 174 просмотра
2

ответа
Excel

+1 ещё

Средний
Excel, VBA, формы как починить отображение шрифта?
- 4 подписчика
- 18 авг.
- 536 просмотров
2

ответа
Beautiful Soup

Простой
Почему Soup.find возвращает None?
- 1 подписчик
- 03 авг.
- 80 просмотров
1

ответ
Excel

+1 ещё

Средний
Как создать сводную таблицу с фильтрацией по текущей дате?
- 2 подписчика
- 28 июл.
- 129 просмотров
1

ответ
Excel

+1 ещё

Простой
Какой Excel установить на смену 2007?
- 2 подписчика
- 23 июл.
- 273 просмотра
5

ответов
Excel

Простой
Как увеличить значение в ячейке при печати нескольких копий Excel?
- 2 подписчика
- 17 июл.
- 112 просмотров
1

ответ
Программное обеспечение и интернет-сервисы

+1 ещё

Простой
Простая программа для ведения электронной таблицы?
- 3 подписчика
- 28 июн.
- 987 просмотров
6

ответов
Excel

+1 ещё

Простой
Есть ли в Microsoft Word и Excel встроенный функционал использования вкладок, по аналогии с приложением Office Tab?
- 1 подписчик
- 27 июн.
- 104 просмотра
0

ответов
Excel

+1 ещё

Простой
Как сделать отличие по базовому полю в сводной таблице в Google sheets?
- 1 подписчик
- 25 июн.
- 86 просмотров
1

ответ
Показать ещё Загружается…

Аналитик Python

Selecty • Москва

До 170 000 ₽

Старший специалист техподдержки (ServiceDesk 1L)

ИТ-Холдинг Т1 • Самара

от 45 000 до 45 000 ₽

Бухгалтер финансист

Emilius Agency

от 10 000 ₽

Точно обрубаются? Может вы экселем пользоваться не умеете?
На всякий случай выберите ячейку с текстом нажмите справа в строке формулы стрелку вниз чтобы показать все строки. Просто многострочный текст в строке формулы, отображается только первая строка, а ячейка может быть не на всю высоту....
twobomb, Никак нет! Питон в одну строку выводит весь текст, и переносит его в Excel. Я проверял.
Nizier193, а нет ли там в description других тегов, кроме <p>? Тогда вполне логично, что их содержимое теряется. Кажется, вместо .text лучше использовать .get_text(), причём от всего контейнера с description.

Почему при переносе информации с Питона в Excel обрубаются тексты?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт