Нужно спарсить таблицу с сайта?

Question

Сергей Романюк @SeRzZzJ

Java developer

Нужно спарсить таблицу с сайта?

Здравствуйте! Я начинающий программист и мне нужно спарсить таблицу с сайта --> https://opi.dfo.kz/p/ru/DfoObjects/objects/teaser-...
Честно говоря не понимаю как ее спарсить уже ломаю голову 3 часа, прошу помочь разобраться или иначе я сам не смогу понять, что тут делать, я гуглил смотрел как делают другие, но взрыв мозга.

Вопрос задан более трёх лет назад
2877 просмотров

9 комментариев

Подписаться 1 Простой 9 комментариев

Ivan Yakushenko @kshnkvn

Ну таблица как таблица, берешь и парсишь, с чем проблема то?

Написано более трёх лет назад
Сергей Романюк @SeRzZzJ Автор вопроса

Ivan Yakushenko, я не понимаю как к тегам таблицы обратится

Написано более трёх лет назад
Stanislav Pugachev @Stqs

а как вы пробуете и что конкретно у вас не получается?

Написано более трёх лет назад
Сергей Романюк @SeRzZzJ Автор вопроса

Stanislav Pugachev, мне нужно разбить в несколько словарей значения как в таблице, допустим как на сайте тип --> физическое лицо и записать в excel документ и я уже ломаю голову слишком долго как это осуществить

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn

SeRzZzJ, ты видимо не понял к чему мы клоним. Поясню цитатой из правил п. 5.12 данного ресурса:

В отличие от вопроса, задача и задание представляют собой частную проблемную ситуацию с явно заданной целью, которую необходимо достичь. Пользу от достижения этой цели получает, как правило, лишь её автор. И даже автору решение задачи или задания будет полезно лишь кратковременно (до тех пор, пока он не использует полученное решение). Все остальные пользователи, которые будут просматривать вопрос, сведенный к решению частной задачи, в надежде найти ответ на свой, лишь понапрасну затратят время. Поэтому, чтобы такие вопросы-задания не мешали другим пользователям искать ответы на вопросы, нам приходится их удалять. А для поиска помощи в решении задач и выполнения заданий мы рекомендуем использовать специализированные сервисы, например «Хабр Фриланс».

Пока ты не предоставишь собственные попытки решения своей собственной проблемы, твой "вопрос" расценивается как задание, что запрещено правилами данного ресурса.

Написано более трёх лет назад
Сергей Романюк @SeRzZzJ Автор вопроса

Ivan Yakushenko, есть код, но работает криво и не правильно, я получаю всю информацию без разделения в один словарь, а как сделать иначе хотел узнать тут

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn

SeRzZzJ, да что же до тебя вся никак не доходит: код свой покажи, который ты написал, но неправильно и тогда тебе подскажут (может быть) как нужно было сделать правильно. В этом и суть подобных ресурсов, а не что бы "сделайте за меня".

Написано более трёх лет назад
Сергей Романюк @SeRzZzJ Автор вопроса

Ivan Yakushenko,
import requests
from bs4 import BeautifulSoup
import csv
from fake_useragent import UserAgent

ua = UserAgent()
URL = 'https://opi.dfo.kz/p/ru/DfoObjects/objects/teaser-...'
HEADERS = {'user-agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36',
'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9'}
CSV = 'Аффилированные лица.csv'

# get html page
def get_html(url, params=''):
r = requests.get(URL, headers=HEADERS, params=params)
return r

# we get the content of the html page
def get_content(html):
soup = BeautifulSoup(html.text, 'html.parser')
items = soup.find_all('table', class_='dsnode-table')
faces = []
for item in items:
faces.append({
'info': item.find('tbody').get_text(strip=True)
})
return faces

#
def parser():
html = get_html(URL)
print(get_content(html))

if __name__ == '__main__':
parser()

Написано более трёх лет назад
Алан Гибизов @phaggi Куратор тега Python

Твоя проблема в том, что ты не читаешь документацию. Вот и сейчас ты наплевал на документацию по нашему ресурсу.
Предлагаю для начала прочесть документацию ресурса и задать вопрос правильно, с положенным оформлением и с уважением к читателям.

Нужно уважать тех, от кого ты зависишь, и любить тех, кто от тебя зависит. А так, как делаешь ты... ничего хорошего у тебя не выйдет.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 1 подписчик
- 9 часов назад
- 52 просмотра
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- вчера
- 190 просмотров
1

ответ
Python

+1 ещё

Простой
Pycharm для старенького мака??
- 1 подписчик
- 18 окт.
- 183 просмотра
3

ответа
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 131 просмотр
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 521 просмотр
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 110 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 535 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 144 просмотра
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 125 просмотров
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Ну таблица как таблица, берешь и парсишь, с чем проблема то?
Ivan Yakushenko, я не понимаю как к тегам таблицы обратится
а как вы пробуете и что конкретно у вас не получается?
Stanislav Pugachev, мне нужно разбить в несколько словарей значения как в таблице, допустим как на сайте тип --> физическое лицо и записать в excel документ и я уже ломаю голову слишком долго как это осуществить
SeRzZzJ, ты видимо не понял к чему мы клоним. Поясню цитатой из правил п. 5.12 данного ресурса:

В отличие от вопроса, задача и задание представляют собой частную проблемную ситуацию с явно заданной целью, которую необходимо достичь. Пользу от достижения этой цели получает, как правило, лишь её автор. И даже автору решение задачи или задания будет полезно лишь кратковременно (до тех пор, пока он не использует полученное решение). Все остальные пользователи, которые будут просматривать вопрос, сведенный к решению частной задачи, в надежде найти ответ на свой, лишь понапрасну затратят время. Поэтому, чтобы такие вопросы-задания не мешали другим пользователям искать ответы на вопросы, нам приходится их удалять. А для поиска помощи в решении задач и выполнения заданий мы рекомендуем использовать специализированные сервисы, например «Хабр Фриланс».

Пока ты не предоставишь собственные попытки решения своей собственной проблемы, твой "вопрос" расценивается как задание, что запрещено правилами данного ресурса.
Ivan Yakushenko, есть код, но работает криво и не правильно, я получаю всю информацию без разделения в один словарь, а как сделать иначе хотел узнать тут
SeRzZzJ, да что же до тебя вся никак не доходит: код свой покажи, который ты написал, но неправильно и тогда тебе подскажут (может быть) как нужно было сделать правильно. В этом и суть подобных ресурсов, а не что бы "сделайте за меня".
Ivan Yakushenko,
import requests
from bs4 import BeautifulSoup
import csv
from fake_useragent import UserAgent

ua = UserAgent()
URL = 'https://opi.dfo.kz/p/ru/DfoObjects/objects/teaser-...'
HEADERS = {'user-agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36',
'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9'}
CSV = 'Аффилированные лица.csv'

# get html page
def get_html(url, params=''):
r = requests.get(URL, headers=HEADERS, params=params)
return r

# we get the content of the html page
def get_content(html):
soup = BeautifulSoup(html.text, 'html.parser')
items = soup.find_all('table', class_='dsnode-table')
faces = []
for item in items:
faces.append({
'info': item.find('tbody').get_text(strip=True)
})
return faces

#
def parser():
html = get_html(URL)
print(get_content(html))

if __name__ == '__main__':
parser()
Твоя проблема в том, что ты не читаешь документацию. Вот и сейчас ты наплевал на документацию по нашему ресурсу.
Предлагаю для начала прочесть документацию ресурса и задать вопрос правильно, с положенным оформлением и с уважением к читателям.

Нужно уважать тех, от кого ты зависишь, и любить тех, кто от тебя зависит. А так, как делаешь ты... ничего хорошего у тебя не выйдет.

Answer 1 · 2020-08-11 00:54:20

import requests
from bs4 import BeautifulSoup
from lxml import html
import csv

headers = {'user-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:72.0) Gecko/20100101 Firefox/72.0',
			'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'
}

url = 'https://opi.dfo.kz/p/ru/DfoObjects/objects/teaser-view/25720?RevisionId=0&ReportNodeId=2147483637&PluginId=6c2aa36248f44fd7ae888cb43817d49f&ReportId=61005620'

response = requests.get(url,headers=headers)

file = open('data.csv','w') # Открываем файл на запись. Можно было использовать контекстный менеджер, но так думаю проще.
writer = csv.writer(file) # Передаем в функцию writer дескриптор открытого файла.

soup = BeautifulSoup(response.text,"html.parser")

rows = soup.find('table',class_='dsnode-table').find('tbody').find_all('tr') # Ищем в html тег 'table' с классом 'dsnode-table',
# далее в найденом ищем тег 'tbody' и наконец ищем все теги 'tr'. Тег 'tr' в html это тег строки таблицы. В результате, в rows 
# у нас окажутся все теги 'tr', тоесть все строки таблицы.

for row in rows: # Проходимся по всем строкам. При каждой итерации, в row у нас будет следующая строка таблицы, вместе с html тегами.
	columns = row.find_all('td') # Ищем в текущей строке таблици все теги 'td'. В html td - это тег ячейки.
	data_list = [columns[0].text,columns[1].text,columns[2].text,columns[3].text,columns[4].text,columns[5].text,columns[6].text,columns[7].text,columns[8].text]
	# Так как в каждой строке 9 ячеек, а элементы списка в большинстве ЯП нумеруюются с нуля, то мы можем обратится к конкретной ячейке
	# текущей строки по индексу. Первая ячейка будет columns[0], а последняя, тоесть девятая - columns[8]. Создаем список 'data_list',
	# и заносим в него все ячейки текущей строки. Но, так как в columns кроме текстовых данных также присутствуют html теги, мы обращаемся 
	# к свойству .text, что-бы получить сам текст, без тегов.
	writer.writerow(data_list) # Записываем текущую строку в csv файл. 
	# Далее цикл продолжается, пока не достигнет конца таблицы(условно, так как все строки таблици мы уже получили, и они хранятся в 'rows')

file.close() # Так как мы не используем контекстный менеджер with, обязательно закрываем открытый файл.

Результат:

Answer 2 · 2020-08-14 04:56:23

Получается что-то типо того

import json

import requests
from bs4 import BeautifulSoup

URL = 'https://opi.dfo.kz/p/ru/DfoObjects/objects/teaser-view/25720?RevisionId=0&ReportNodeId=2147483637&PluginId=6c2aa36248f44fd7ae888cb43817d49f&ReportId=61005620'
HEADERS = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0',
           'accept': '*/*'}


def get_html(url, params=None):
    # Получение объекта Response
    r = requests.get(url, headers=HEADERS, params=params)
    return r


def get_content(html):
    # Получение объекта BeautifulSoup
    soup = BeautifulSoup(html, 'lxml')

    # Парсинг название заголовков
    table_headers = tuple(map(lambda elem: elem.get_text(strip=True), soup.select('table.dsnode-table thead tr td')))
    # Пасринг строк таблицы
    table_strings = tuple(map(lambda elem: elem, soup.select('table.dsnode-table tbody tr')))

    # Компоновка информации в массив словарей
    table = [{header: element_table.get_text(strip=True) for header, element_table in
              zip(table_headers, string.select('td'))} for string in table_strings]
    return table


def parse():
    html = get_html(URL.strip())

    # Проверка на получение успешного ответа с сервера
    if html.ok:
        try:
            data = get_content(html.text)
            write_to_file(data)
        except Exception as ex:
            print(ex)
    else:
        print('Error connection')


def write_to_file(data):
    with open(f"{input('Введите название файла: ')}.json", "w", encoding="utf-8") as write_file:
        json.dump(data, write_file, ensure_ascii=False, indent=4)


parse()

Нужно спарсить таблицу с сайта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт