Задать вопрос

Парсинг при помощи lxml и сохранения данных при помощи pandas

Вдохновившись статьей на хабре, пытаюсь написать парсер. Код ниже:
import lxml.html as html
from pandas import DataFrame

main_domain = 'http://market.yandex.ru'
brand_list = html.parse('%s/brands-list.xml' % (main_domain))

e = brand_list.getroot().find_class('body')
for i in e:
    t = i.getchildren().pop()
    link_table = DataFrame({'EV':j[0].text , 'LINK':j[2]} for j in t.iterlinks())

link_table.to_csv('brands1.csv',';',index=False,encoding="UTF-8")

Вылетает ошибка UnicodeDecodeError: 'utf8' codec can't decode byte 0xd0 in position 4: unexpected end of data
Что я делаю неправильно?
  • Вопрос задан
  • 3655 просмотров
Подписаться 6 Оценить Комментировать
Пригласить эксперта
Ответы на вопрос 2
Arseny_Info
@Arseny_Info
R&D engineer
for i in e:
    t = i.getchildren().pop()
    link_table = DataFrame({'EV':j[0].text.encode('utf-8') , 'LINK':j[2]} for j in t.iterlinks())
Ответ написан
Комментировать
@Freesty1er
А какой статьей вдохновились?
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы