Как запарсить элементы таблицы?

Question

Arti-Jack @Arti-Jack

Как запарсить элементы таблицы?

Имею сайт: https://www.weblancer.net/jobs/?type=project

Нужно запарсить элементы из этой таблицы (получить сведения о работе - заявки, цена и прочее). Но я не могу никак достать элементы из таблицы.

Вот мой код:

# Web-page (https://www.weblancer.net/) parser

import urllib.request
from bs4 import BeautifulSoup

def get_html(url):
response = urllib.request.urlopen(url)
return response.read()

def parse(html):
soup = BeautifulSoup(html)
table = soup.find("table", clazz="items_list")
print(table)

def main():
parse(get_html("https://www.weblancer.net/projects/"))

if __name__ == "__main__":
main()

Вообще, я правильно понял, что это нужный тэг? Просто я не нашёл таблицу.

Вопрос задан более трёх лет назад
12740 просмотров

12 комментариев

Подписаться 1 Простой 12 комментариев

javedimka @javedimka

clazz="items_list"

Написано более трёх лет назад
Arti-Jack @Arti-Jack Автор вопроса

javedimka, прошу прощения, не понял?

Написано более трёх лет назад
javedimka @javedimka

Arti-Jack,
table = soup.find("table", clazz="items_list")
Думаешь clazz это правильный keyword для этой функции?
Вот если открыть доку для бс4, то можно увидеть, что для поиска по класску следует использовать class_, а не clazz

Написано более трёх лет назад
Arti-Jack @Arti-Jack Автор вопроса

javedimka, ааа, понял. А вот сам тэг верно найден?

Написано более трёх лет назад
javedimka @javedimka

Arti-Jack, Нет, там нет таблицы, там верстка дивами сделана.

Написано более трёх лет назад
Arti-Jack @Arti-Jack Автор вопроса
javedimka, т.е нужен
find("div", class_="container-fluid cols_table show_visited")
?
Написано более трёх лет назад
javedimka @javedimka

Arti-Jack, Пока не попробуешь - не узнаешь.

Написано более трёх лет назад
Arti-Jack @Arti-Jack Автор вопроса

javedimka, Не рискуешь - не пьёшь вина? :)

Написано более трёх лет назад
Arti-Jack @Arti-Jack Автор вопроса
javedimka, вроде вышло, но в консоль ещё вывелась эксепшн строка:

To get rid of this warning, change this: BeautifulSoup([your markup]) to this: BeautifulSoup([your markup], "lxml") markup_type=markup_type))
Написано более трёх лет назад
javedimka @javedimka

Arti-Jack, да тут рисковать не надо, просто пару статеек прочитать, тем более такое можно выполнить на чистом lxml строк в 10, без взяких прибамбасов в виде bs.

Написано более трёх лет назад
javedimka @javedimka

Arti-Jack, ну сделай что ошибка просит, там ясно написано что сделать надо.

Написано более трёх лет назад
frig @frig

Надо было сразу rss брать. Есть парсить проще и он при изменении дизайна не меняется.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

+3 ещё

Простой
Есть ли у банков база данных служебных номеров?
- 1 подписчик
- 4 часа назад
- 81 просмотр
0

ответов
Python

Простой
Как загрузить такой дамп json? НИКАК? баг json или есть какой то способ?
- 1 подписчик
- 16 часов назад
- 170 просмотров
2

ответа
Python

Средний
Почему модель google/flan-t5-large отвечает неправильно?
- 1 подписчик
- 20 часов назад
- 46 просмотров
1

ответ
Веб-разработка

+1 ещё

Средний
Как корректно настроить на сайте выбор использования cookie?
- 2 подписчика
- 22 часа назад
- 128 просмотров
0

ответов
Python

Простой
Как через subprocess выполнять скрипты с пробелами в путях?
- 1 подписчик
- вчера
- 165 просмотров
1

ответ
Python

+1 ещё

Простой
Telethon: Как сделать автоматическое добавление канала в профиль?
- 1 подписчик
- 12 мая
- 79 просмотров
0

ответов
Веб-разработка

+2 ещё

Простой
Как работают сервисы «Идентификация посетителей» (получения номера телефона)?
- 2 подписчика
- 12 мая
- 750 просмотров
1

ответ
PHP

+2 ещё

Простой
Как убрать слеш в конце главной страницы?
- 1 подписчик
- 11 мая
- 199 просмотров
0

ответов
Веб-разработка

Простой
Как frontend и backend соединяют в единый проект?
- 1 подписчик
- 11 мая
- 1096 просмотров
3

ответа
Python

+3 ещё

Простой
Не отправляются письма через ЯНДЕКС SMTP в Django. Что не так?
- 1 подписчик
- 11 мая
- 132 просмотра
1

ответ
Показать ещё Загружается…

Python-разработчик

BCraft

от 2 000 до 3 500 $

Python разработчик

Data Compass

от 150 000 до 250 000 ₽

Python разработчик Senior

Туроператор «Русь» • Москва

от 200 000 до 300 000 ₽

Arti-Jack,
table = soup.find("table", clazz="items_list")
Думаешь clazz это правильный keyword для этой функции?
Вот если открыть доку для бс4, то можно увидеть, что для поиска по класску следует использовать class_, а не clazz
javedimka, ааа, понял. А вот сам тэг верно найден?
Arti-Jack, Нет, там нет таблицы, там верстка дивами сделана.
javedimka, т.е нужен
find("div", class_="container-fluid cols_table show_visited")
?
Arti-Jack, Пока не попробуешь - не узнаешь.
javedimka, Не рискуешь - не пьёшь вина? :)
javedimka, вроде вышло, но в консоль ещё вывелась эксепшн строка:

To get rid of this warning, change this: BeautifulSoup([your markup]) to this: BeautifulSoup([your markup], "lxml") markup_type=markup_type))
Arti-Jack, да тут рисковать не надо, просто пару статеек прочитать, тем более такое можно выполнить на чистом lxml строк в 10, без взяких прибамбасов в виде bs.
Arti-Jack, ну сделай что ошибка просит, там ясно написано что сделать надо.
Надо было сразу rss брать. Есть парсить проще и он при изменении дизайна не меняется.

Answer 1 · 2017-11-19 23:36:26

попробуйте такой пример

from bs4 import BeautifulSoup

content_table = """
<table>
    <thead>
        <th>ID</th>
        <th>Vendor</th>
        <th>Product</th>
    </thead>
    <tr>
        <td>1</td>
        <td>Intel</td>
        <td>Processor</td>
    </tr>
    <tr>
        <td>2</td>
        <td>AMD</td>
        <td>GPU</td>
    </tr>
    <tr>
        <td>3</td>
        <td>Gigabyte</td>
        <td>Mainboard</td>
    </tr>
</table>
"""

soup = BeautifulSoup(content_table, 'html.parser')
headers = {}
rows = soup.find_all("tr")
thead = soup.find("thead").find_all("th")

for i in range(len(thead)):
     headers[i] = thead[i].text.strip().lower()

data = []

for row in rows:
     cells = row.find_all("td")

item = {}

for index in headers:
     item[headers[index]] = cells[index].text
     data.append(item)

print(data)

Answer 2 · 2017-11-20 21:36:39

Я, как адепт scrapy, порекомендую его.
Удобно работать с xpath, напримере таблицы, будет код типа:

for row in response.xpath('//table[@id="table1"]/tr'):
    item['name'] = row.xpath('./td[1]/text()').extract_first()
    yield item

P.S. Часто бывает, что увидеть вёрстку глазами скрипта нужно отключить JS.

Как запарсить элементы таблицы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт