Как вытащить табличные данные из html?

Question

John Doe @uptownnegative

Как вытащить табличные данные из html?

Обучаюсь написанию парсеров. Сейчас моей задачей является парсинг табличных данных с сайта https://coinmarketcap.com/ , где мне нужны непосредственно данные с таблицы криптовалют, их стоимости и т.д., которые лежат в блоке tbody.
Но когда с помощью Beautiful Soup пробую попасть в таблицу, в объект tbody, выдаёт "AttributeError: 'NoneType' object has no attribute 'find_all'". При этом объект thead он видит прекрасно и никаких ошибок нет. Как мне всё таки добиться того, чтобы программа видела этот блок сайта?
Пробовал уже все возможные перестановки кода, какие-то замены в элементах, но ничего не помогает, и программа все равно не видит тело таблицы.

import requests
from bs4 import BeautifulSoup
import csv

def get_html(url):
    r = requests.get(url)
    return r.text

def write_csv(data):
    with open('cmc.csv', 'a') as f:
        writer = csv.writer(f)
        pass

def get_page_data(html): 
    soup = BeautifulSoup(html, 'lxml')
    trs = soup.find('table').find('tbody').find_all('tr')
    print(len(trs))


def main():
    url = 'https://coinmarketcap.com/'
    get_page_data(get_html(url))

if __name__ == '__main__':
    main()

Вопрос задан более трёх лет назад
2876 просмотров

5 комментариев

Подписаться 1 Простой 5 комментариев

John Doe @uptownnegative Автор вопроса

Александр, https://coinmarketcap.com/
Она есть и в описании вопроса, и в коде программы.

Написано более трёх лет назад

Александр @cashncarry

Nikita, потом увидел
Если быстро хочешь, попробуй с pandas

import pandas as pd
 table = pd.read_html('https://coinmarketcap.com/')[-1]

| # | Name | Market Cap | Price | Volume (24h) | Circulating Supply | Change (24h) | Price Graph (7d) | Unnamed: 8 |  |
|---|-------------------------------------|------------|------------------|--------------|--------------------|-----------------|------------------|------------|-----|
| 0 | 1 | Bitcoin | $167,561,603,708 | $9,206.92 | $30,227,614,663 | 18,199,525 BTC | -1.01% | NaN | NaN |
| 1 | 2 | Ethereum | $20,694,812,901 | $188.89 | $11,929,440,003 | 109,561,828 ETH | -0.04% | NaN |  |

Написано более трёх лет назад

John Doe @uptownnegative Автор вопроса

Александр, Я хочу обучиться сначала BS, чтобы потом переходить уже к другому. И единственное, что меня сейчас волнует - это то, что я просто не могу попасть в этот объект tbody, как бы я ни пробовал.

Написано более трёх лет назад
AWEme @AWEme

Xpath подсказывает, что на странице аж 3 таблицы, а здесь soup.find('table') явно выбирается первая из них, у которой нет тэга tbody, он есть только у третьей таблицы.

Написано более трёх лет назад
John Doe @uptownnegative Автор вопроса

AWEme, Не подумал об этом. Как изменить код, чтобы выбрать именно третью таблицу? Есть синтаксис?

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

14 комментариев

John Doe @uptownnegative Автор вопроса

Спасибо большое. Помогло.

Написано более трёх лет назад
Maxim @wkes

не работает :(

Написано более трёх лет назад
Сергей Карбивничий @hottabxp Куратор тега Python

Maxim, А вы сами пробовали что-то искать, менять. Добавил рабочий код в ответ.

Написано более трёх лет назад
Maxim @wkes

Сергей Карбивничий, пока разбираюсь как и что работает. Потом буду добавлять свои строки и смотреть что получится
Так и думал что строки изменились :)

Написано более трёх лет назад
Сергей Карбивничий @hottabxp Куратор тега Python

Maxim, Там не строки изменились, а классы(в html) :)

Написано более трёх лет назад
Maxim @wkes

Сергей Карбивничий, значения не выводятся все равно.
Вроде print должен выводить результат работы программы, но ничего не выводит.

Написано более трёх лет назад
Maxim @wkes

еще узнать бы как потом из документы вывести пользователю запрос

Написано более трёх лет назад
Maxim @wkes

Сергей Карбивничий, И у меня еще вопрос.
Так как я вообще еще новичок в этом, можно ли сделать такой парсер, что бы он заходил на сайт, отыскивал только одну строку и оттуда вытаскивал значение и возвращал в бота ? То есть не целую страницу, а только одно значение. Или в любом случае нужно парсить всю страницу, и только потом извлекать нужные данные и выводить их ?

Написано более трёх лет назад

Сергей Карбивничий @hottabxp Куратор тега Python

Вот самый простой пример парсера+бота. Пишите ему id вопроса с данного сайта, а он возвращает вам заголовок вопроса, или ошибку, если вопроса с таким id не существует.

import telebot
from bs4 import BeautifulSoup
import requests

token = 'TOKEN'


def get_Title(id):
    response = requests.get('https://qna.habr.com/q/'+id)
    soup = BeautifulSoup(response.text,'lxml')
    try:
        title = soup.find('h1',class_='question__title').text.strip()
        return title
    except:
        return 'Ошибка! Неверный id вопроса.'

bot = telebot.TeleBot(token)

@bot.message_handler(content_types=['text'])
def repeat_all_message(message):
	print(message.text)
	bot.send_message(message.chat.id,get_Title(message.text))

if __name__ == '__main__':
    bot.polling(none_stop=True)

Написано более трёх лет назад

Сергей Карбивничий @hottabxp Куратор тега Python

Maxim, Можете для примера ему отправить id данного вопроса - 708853

Написано более трёх лет назад
Maxim @wkes

Сергей Карбивничий, Это круто, спасибо, пойду экспериментировать :)

Написано более трёх лет назад
Maxim @wkes

Сергей Карбивничий, разобрался, даже настроил пару выводов по запросу. Но появилась проблема, если бот не активен 5 минут, при отправке следующего запроса к нему - сервер(тот который парсит бот) разрывает соединение. Погуглил, советуют обернуть в try except , но он и так обернут как я вижу.
В чем проблема может быть ? Сам сайт закрывает соединение всем пользователям если они инактив ?
Или условие написать что бы бот перезапускался. Потому что бот останавливается.
UPD: решил вопрос.

Написано более трёх лет назад
Сергей Карбивничий @hottabxp Куратор тега Python

Maxim, Можете показать свой код?

Написано более трёх лет назад
Maxim @wkes

Могу, только надо доделать :) Залил его на сервер и он не парсит....
Или айпишники там уже в бане или я не знаю
Или убунту надо учить читать файл parse.iml ?
upd: решил
@Allcoinsbot - вот что получилось

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

3 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 211 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 557 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 495 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 283 просмотра
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 510 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 126 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 665 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 346 просмотров
1

ответ
Показать ещё Загружается…

Александр, https://coinmarketcap.com/
Она есть и в описании вопроса, и в коде программы.
Nikita, потом увидел
Если быстро хочешь, попробуй с pandas

import pandas as pd table = pd.read_html('https://coinmarketcap.com/')[-1]

| # | Name | Market Cap | Price | Volume (24h) | Circulating Supply | Change (24h) | Price Graph (7d) | Unnamed: 8 | | |---|-------------------------------------|------------|------------------|--------------|--------------------|-----------------|------------------|------------|-----| | 0 | 1 | Bitcoin | $167,561,603,708 | $9,206.92 | $30,227,614,663 | 18,199,525 BTC | -1.01% | NaN | NaN | | 1 | 2 | Ethereum | $20,694,812,901 | $188.89 | $11,929,440,003 | 109,561,828 ETH | -0.04% | NaN | |
Александр, Я хочу обучиться сначала BS, чтобы потом переходить уже к другому. И единственное, что меня сейчас волнует - это то, что я просто не могу попасть в этот объект tbody, как бы я ни пробовал.
Xpath подсказывает, что на странице аж 3 таблицы, а здесь soup.find('table') явно выбирается первая из них, у которой нет тэга tbody, он есть только у третьей таблицы.
AWEme, Не подумал об этом. Как изменить код, чтобы выбрать именно третью таблицу? Есть синтаксис?

Answer 1 · 2020-02-04 20:11:18

На быструю руку склепал. Не факт что код правильный, но рабочий:

Старый код:

import requests
from bs4 import BeautifulSoup

url = 'https://coinmarketcap.com/'
r = requests.get(url)

soup = BeautifulSoup(r.text, 'lxml')
all = soup.find_all('',class_='cmc-table-row')

for x in all:
	rank = x.find('td',class_='cmc-table__cell--sort-by__rank').text
	name = x.find('td',class_='cmc-table__cell--sort-by__name').text
	market_cap = x.find('td',class_='cmc-table__cell--sort-by__market-cap').text
	price = x.find('td',class_='cmc-table__cell--sort-by__price').text
	volume = x.find('td',class_='cmc-table__cell--sort-by__volume-24-h').text
	circulating_supply = x.find('td',class_='cmc-table__cell--sort-by__circulating-supply').text
	change = x.find('td',class_='cmc-table__cell--sort-by__percent-change-24-h').text
	print(f'{rank} {name} {market_cap} {price} {volume} {circulating_supply} {change}')

UPDATE 22.10.20:

import requests
from bs4 import BeautifulSoup

url = 'https://coinmarketcap.com/'
r = requests.get(url)

soup = BeautifulSoup(r.text, 'lxml')
all = soup.find_all('',class_='cmc-table-row')

for x in all:
  rank = x.find('td',class_='rc-table-cell table-col-rank rc-table-cell-fix-left').text
  name = x.find('a',class_='cmc-link').find('p').text
  market_cap = x.find('td',class_='rc-table-cell font_weight_500___2Lmmi').text
  price = x.find('td',class_='rc-table-cell font_weight_500___2Lmmi').text
  volume = x.find('div',class_='Box-sc-16r8icm-0 sc-1anvaoh-0 gxonsA').a.p.text
  circulating_supply = x.find('p',class_='Text-sc-1eb5slv-0 kqPMfR').text
  # change = x.find('td',class_='cmc-table__cell--sort-by__percent-change-24-h').text
  print(f'{rank} {name} {market_cap} {price} {volume} {circulating_supply}')

Answer 2 · 2020-02-04 20:03:53

Dimonchik @dimonchik2013

non progredi est regredi

pytablereader не помог?

Ответ написан более трёх лет назад

3 комментария

Как вытащить табличные данные из html?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт