Как достать данные?

Question

lcd1232 @lcd1232

Как достать данные?

import lxml.html as html
import requests
import time
url = "http://www.world-art.ru/animation/manga.php?id="
folder = ""
counter = 501
info = {}
page = html.parse(url+str(counter)).getroot()
info["name"] = page.xpath("html/body/table/tbody/tr[1]/td/center/table[7]/tbody/tr/td/table/tbody/tr/td[5]/table[2]/tbody/tr/td[3]/font[1]/b")[0].text
info["year"] = page.xpath("html/body/table/tbody/tr[1]/td/center/table[7]/tbody/tr/td/table/tbody/tr/td[5]/table[2]/tbody/tr/td[3]/b/font[1]")[0].text
info["name1"] = page.xpath("html/body/table/tbody/tr[1]/td/center/table[7]/tbody/tr/td/table/tbody/tr/td[5]/table[2]/tbody/tr/td[3]")[0].text
print(info["name1"])

Собственно не достает ни один из элементов. Путь указан верно, т.к. пользовался FirePath'ом. А как достать по-другому не знаю.
Update

import lxml.html as html
import requests
import time
from lxml import etree
from lxml.html import HTMLParser
# url = "http://animanga.ru/default.aspx?a=book&id="
url = "http://www.world-art.ru/animation/manga.php?id="
folder = ""
counter = 520
info = {}
r = requests.get(url+str(counter))
if r.ok:
    page = etree.fromstring(r.text, parser=HTMLParser())

    name = page.xpath("//font/b")
    for element in name:
        if (element.text and element.text.find("манга")!=-1):
            string = element.text
            string = string[:string.find("(")-1]
            print(string)

    name_eng = page.xpath("//tr/td/text()")
    i = 1
    for element in name_eng:
        if (i==40):
            print(element)
        i += 1

    year = page.xpath("//font")
    for element in year:
        string = element.text
        if (string and string.isnumeric()):
            print(string)

Знаю, что код ужасен и, что name_eng он не получает, но хоть что-то.

Вопрос задан более трёх лет назад
1526 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

4 комментария

angru @angru

У меня возникли те же мысли, но вы открывали исходник сайта? Там табличная верстка, без классов и id'шников. Шел 2015-ый год...

Написано более трёх лет назад
Dimonchik @dimonchik2013

angru: да ладно
print doc.xpath('//td/font[@size="3"]/b/text()')
что сложного-то?

Написано более трёх лет назад
angru @angru

dimonchik2013: по сути ничего, согласен что так проще, но все также не очень надежно.

Написано более трёх лет назад
lcd1232 @lcd1232 Автор вопроса

dimonchik2013: Спасибо за ссылку, действительно вещь.

Написано более трёх лет назад

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 214 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 569 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 501 просмотр
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 286 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 515 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 216 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 126 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 332 просмотра
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 666 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 347 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2015-11-08 15:21:59

скачай файл на локальный и внимательно прочитай статью и видео, это изменит твой подход
prostoitblog.ru/xpath-i-css/kak-sostavlyat-xpath-i...

писать пути вида
html/body/table/tbody/tr[1]/td/center/table[7]/tbody/tr/td/table/tbody/tr/td[5]
очень плохой признак - одно изменение на странице/ в таблице, и вся нумерация идет лесом

учись составлять выражения по типу регекспов: строить путь, который совпадет на твоем участке

Answer 2 · 2015-11-08 15:17:04

Используй Beautiful Soup, очень удобно парсить с его помощью
Вот гайд, даже если английского не знаешь, все понятно
https://www.youtube.com/watch?v=3xQTJi2tqgk

Answer 3 · 2015-11-08 19:59:32

Никогда не приходилось парсить такие сайты, не завидую вам.
Как вам уже советовали откройте исходник странички, там немного другая струстура, например нет tbody.
Также корневой элемент это html, так что его не надо указывать в xpath.

У меня получился тот еще говнокод:

import lxml.html as html
import requests
from lxml import etree
from lxml.html import HTMLParser


info = {}
r = requests.get("http://www.world-art.ru/animation/manga.php?id=501")

if r.ok:
    tree = etree.fromstring(r.text, parser=HTMLParser())

    info["name"] = tree.xpath("body/table/tr[1]/td/center/table[7]/tr/td/table/tr/td[5]/table[2]/tr/td[3]/font[1]/b")[0].text
    info["year"] = tree.xpath("body/table/tr[1]/td/center/table[7]/tr/td/table/tr/td[5]/table[2]/tr/td[3]/font[2]")[0].text
    info["name1"] = str(etree.tostring(tree.xpath("body/table/tr[1]/td/center/table[7]/tr/td/table/tr/td[5]/table[2]/tr/td[3]")[0])).split('<br/>')[1]

    print(info)

Как достать данные?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт