Идентификация тегов и с помощью парсинг-библиотеки lxml для Python. Возможно ли?

Question

Филат Астахов @ph1l74

filatique

Идентификация тегов и с помощью парсинг-библиотеки lxml для Python. Возможно ли?

Доброго времени суток,
Пишу небольшой код для обработки очков в fantasy-футболе. Для этого использую Python 2.7 32bit с lxml 3.6.0.
Ранее пользовался этой же библиотекой для обработки данных о фильмах, работало как часы.

Проблема в том, что не получается считать данные из тега и с определённым классом.

Вот часть html-кода, для того, чтобы понять структуру:
<div class="grace full-field"> <div class="forward-container"><ins data-id="1744589" data-amplua="4" class="player hold player-base "> <img class="t-shirt" src="http://www.sports.ru/storage/img/fantasy/shirts/rfpl/spartak.png" alt="Спартак" title="Спартак"><span class="name">Зе Луиш</span> <span class="pl-descr"> <i class="ico info2" data-id="1744589"></i><i class="ico point">-</i> </span>

Сама страница

Python:
from urllib2 import urlopen from lxml import html url = urlopen('http://www.sports.ru/fantasy/football/team/points/1443463.html') page = html.parse(url) points = page.getroot().find_class('ico point') print points for i in points: print i.text_content()

Парсер находит класс "forward-container", а дальше идти не хочет. То есть классы "name" и нужный мне "ico point" не находятся.

Пробовал через .xpath():
names = page.xpath('.//i[contains(@class, "ico point")]')

Но ничего не получилось.
Вопросов несколько:
1. Это lxml не умеет идентифицировать классы у тэгов , ?
2. Или это ошибка в моём коде?
3. И есть ли парсеры которые умеют находить нужные классы в этих тегах?
4. Или придется писать парсер самому?

Прошу прощения, если мои вопросы звучат нелепо, так как я только учусь.
Заранее спасибо,

Вопрос задан более трёх лет назад
806 просмотров

3 комментария

Подписаться 2 Оценить 3 комментария

Владимир Куц @fox_12 Куратор тега Python

что-то по curl www.sports.ru/fantasy/football/team/points/1443463.html я вообще не нахожу таких классов

Написано более трёх лет назад
Филат Астахов @ph1l74 Автор вопроса

Владимир: Действительно. Я-то смотрел через консоль хрома. Там есть эти параметры. А вот если через curl делать (pastebin.com/5FCQ8sAB), то этих параметров нет. Теперь стало ясно, почему при поиске класса "name" возвращался лист из "Нап" "Нап" "Нап" элементов, а не из имен Видимо, нормально запарсить для сбора данных эту страничку не получится.

Написано более трёх лет назад
Владимир Куц @fox_12 Куратор тега Python

Филат Астахов: там видимо скрипты аяксом дотягивают эти данные. Поэтому в броузере, там где скрипты отрабатывают - они присутствуют. А вот если http-запросами - то их нет. Поэтому их не видите. Попробуйте использовать Selenium webdriver чтобы вытащить эти данные.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Средний
Как из проекта на python RenPY сделать установщик?
- 1 подписчик
- час назад
- 34 просмотра
0

ответов
Python

+2 ещё

Простой
Как сделать простой калькулятор в боте, через сбор данных от пользователя?
- 1 подписчик
- час назад
- 16 просмотров
0

ответов
Python

+3 ещё

Простой
С чем и как есть gRPC?
- 1 подписчик
- 3 часа назад
- 40 просмотров
1

ответ
HTML

Простой
С чем может быть связано не правильный вывод изображений?
- 1 подписчик
- 3 часа назад
- 63 просмотра
1

ответ
JavaScript

+1 ещё

Средний
Как задать img источник из svg inline?
- 1 подписчик
- 6 часов назад
- 88 просмотров
1

ответ
Python

+1 ещё

Простой
Как увеличить паузу между отправкой запроса и получением результата?
- 1 подписчик
- 7 часов назад
- 63 просмотра
2

ответа
JavaScript

+2 ещё

Простой
Смена стилей шапки сайта при скролле к определенному блоку? Стили должны применяться при скролле до блока и отменяться за его пределами?
- 1 подписчик
- 7 часов назад
- 47 просмотров
1

ответ
HTML

+1 ещё

Простой
Как Выделить слово приходящая из базы определенным цветом?
- 1 подписчик
- 8 часов назад
- 124 просмотра
0

ответов
Python

Простой
Как исправить проблему с установкой torch?
- 1 подписчик
- 10 часов назад
- 54 просмотра
0

ответов
JavaScript

+1 ещё

Средний
Как сделать так, чтобы клик по object передавался родителю?
- 1 подписчик
- 11 часов назад
- 96 просмотров
2

ответа
Показать ещё Загружается…

Тестировщик-стажёр

ITooLabs • Тула

от 35 000 до 40 000 ₽

Fullstack PHP Developer

Smapse Education

от 40 000 до 65 000 ₽

Trainee - IT Support

move2usajobs.com LLC • Лос-Анджелес

от 2 000 до 4 000 $

Требуется завершить backend (проектная работа)

25 апр. 2024, в 19:42

49000 руб./за проект

Проверить тест по Data Science

25 апр. 2024, в 19:41

2000 руб./за проект

Верстка сайта и натяжка на wordpress

25 апр. 2024, в 19:22

18000 руб./за проект

что-то по curl www.sports.ru/fantasy/football/team/points/1443463.html я вообще не нахожу таких классов
Владимир: Действительно. Я-то смотрел через консоль хрома. Там есть эти параметры. А вот если через curl делать (pastebin.com/5FCQ8sAB), то этих параметров нет. Теперь стало ясно, почему при поиске класса "name" возвращался лист из "Нап" "Нап" "Нап" элементов, а не из имен Видимо, нормально запарсить для сбора данных эту страничку не получится.
Филат Астахов: там видимо скрипты аяксом дотягивают эти данные. Поэтому в броузере, там где скрипты отрабатывают - они присутствуют. А вот если http-запросами - то их нет. Поэтому их не видите. Попробуйте использовать Selenium webdriver чтобы вытащить эти данные.

Answer 1 · 2016-05-16 14:12:31

sim3x @sim3x

stackoverflow.com/questions/3881044/how-to-get-htm...

//div[contains(@class, 'class1') and contains(@class, 'class2')]

Ответ написан более трёх лет назад

Комментировать

Идентификация тегов и с помощью парсинг-библиотеки lxml для Python. Возможно ли?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт