Парсинг при помощи lxml и сохранения данных при помощи pandas

Question

ikudza @ikudza

Парсинг при помощи lxml и сохранения данных при помощи pandas

Вдохновившись статьей на хабре, пытаюсь написать парсер. Код ниже:

import lxml.html as html
from pandas import DataFrame

main_domain = 'http://market.yandex.ru'
brand_list = html.parse('%s/brands-list.xml' % (main_domain))

e = brand_list.getroot().find_class('body')
for i in e:
    t = i.getchildren().pop()
    link_table = DataFrame({'EV':j[0].text , 'LINK':j[2]} for j in t.iterlinks())

link_table.to_csv('brands1.csv',';',index=False,encoding="UTF-8")

Вылетает ошибка UnicodeDecodeError: 'utf8' codec can't decode byte 0xd0 in position 4: unexpected end of data
Что я делаю неправильно?

Вопрос задан более трёх лет назад
3665 просмотров

Комментировать

Подписаться 6 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 208 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 541 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 491 просмотр
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 280 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 505 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 663 просмотра
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2014-05-22 22:20:59

Арсений Кравченко @Arseny_Info

R&D engineer

for i in e:
    t = i.getchildren().pop()
    link_table = DataFrame({'EV':j[0].text.encode('utf-8') , 'LINK':j[2]} for j in t.iterlinks())

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2014-05-24 22:09:51

Freesty1er @Freesty1er

А какой статьей вдохновились?

Ответ написан более трёх лет назад

Комментировать

Парсинг при помощи lxml и сохранения данных при помощи pandas

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт