Как спарсить данные в одну таблицу? Или как объединить два словаря?

Question

ddgryaz @ddgryaz

Python

Как спарсить данные в одну таблицу? Или как объединить два словаря?

Доброго времени суток!
Подскажите пожалуйста, парсю данные, результатом должна быть таблица из двух колонок.
На моем опыте такое впервые, что я создаю два разных словаря в двух разных циклах, как здесь правильно поступить?

from bs4 import BeautifulSoup
import csv


def rename_uik_number(uik_bad_name):
    true_name = uik_bad_name.split(' ')[1:]
    true_name1 = ''.join(true_name)[1:]
    return true_name1


def rename_part(part_bad):
    true_val = part_bad.split('\n')[1]
    return true_val


def get_data():
    f = open('sites/1.html', 'r').read()
    soup = BeautifulSoup(f, 'lxml')
    body = soup.find('body')
    table = body.find('table', width="100%", cellpadding="0", height="80%").find('tbody')
    trs = table.find('tr', height="100%")
    table2 = trs.find('table', style="width:100%;border-color:#000000").find('tbody').find('tr', style="height:100%")
    table3 = table2.find('td', width="90%").find('div', style="width:100%; bgcolor:white;overflow:scroll").find(
        'table').find('tbody')
    ntr = table3.find('tr', valign="top")
    tds = ntr.find_all('td')
    for td in tds:
        uik_bad_name = td.find('nobr').find('a').text
        uik_name = rename_uik_number(uik_bad_name)
        # data = {'uik_name': uik_name}
        # write_csv(data)
    vtr = table3.find_all('tr')[18:]
    for vt in vtr:
        tds = vt.find_all('td')
        for td in tds:
            part_bad = td.text
            part = rename_part(part_bad)
            # data = {
            #     'part': part
            # }
            # write_csv(data)


def write_csv(data):
    with open('uiki.csv', 'a') as f:
        writer = csv.writer(f)
        writer.writerow([
            data['uik_name'],
            data['part'],
        ])


def main():
    get_data()


if __name__ == '__main__':
    main()

То есть, значение из первого словаря должно быть напротив значения из второго словаря в конечной таблице. Быть можно как то объединить два словаря?

Вопрос задан более трёх лет назад
292 просмотра

2 комментария

Подписаться 1 Простой 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

1 комментарий

ddgryaz @ddgryaz Автор вопроса

Друг, спасибо тебе большое за такой развернутый ответ!
Даже не знаю, что и сказать! Дело в том, что мне не нужна была целая таблица, а всего то два значения из нее, которые я уже достал в коде, который привел в вопросе:)
Вопрос был, как объединить два словаря, или возможно есть другие варианты! Прошу у тебя прощения, если мне не удалось донести суть своего вопроса!
Кстати, проблему я решил следующим образом:

from bs4 import BeautifulSoup
import csv


def rename_uik_number(uik_bad_name):
    true_name = uik_bad_name.split(' ')[1:]
    true_name1 = ''.join(true_name)[1:]
    return true_name1


def rename_part(part_bad):
    true_val = part_bad.split('\n')[1]
    true_val1 = true_val[:-1]
    return true_val1


def get_data():
    f = open('sites/1.html', 'r').read()
    soup = BeautifulSoup(f, 'lxml')
    body = soup.find('body')
    table = body.find('table', width="100%", cellpadding="0", height="80%").find('tbody')
    trs = table.find('tr', height="100%")
    table2 = trs.find('table', style="width:100%;border-color:#000000").find('tbody').find('tr',
                                                                                           style="height:100%")
    table3 = table2.find('td', width="90%").find('div', style="width:100%; bgcolor:white;overflow:scroll").find(
        'table').find('tbody')
    ntr = table3.find('tr', valign="top")
    tds = ntr.find_all('td')
    data = {"uiks": [], "parts": []}
    for td in tds:
        uik_bad_name = td.find('nobr').find('a').text
        uik_name = rename_uik_number(uik_bad_name)
        data["uiks"].append(uik_name)
        # return data
    vtr = table3.find_all('tr')[18:]
    for vt in vtr:
        tds = vt.find_all('td')
        for td in tds:
            part_bad = td.text
            part = rename_part(part_bad)
            data["parts"].append(part)
    return data


def write_csv():
    data = get_data()
    with open('XXXX.csv', 'a') as f:
        fieldnames = ['QQQ', 'WWWW']
        writer = csv.DictWriter(f, fieldnames=fieldnames)
        writer.writeheader()
        new_data = zip(data["uiks"], data["parts"])
        for row in new_data:
            writer.writerow({fieldnames[0]: row[0], fieldnames[1]: row[1]})


def main():
    write_csv()


if __name__ == '__main__':
    main()

То есть, мне нужны были только номера и их значения в последней строке!
Но спасибо тебе огромное, за твой ответ!

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- вчера
- 68 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 232 просмотра
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 228 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 630 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 545 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 305 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 557 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 226 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 140 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 339 просмотров
1

ответ
Показать ещё Загружается…

Можете дать ссылку на страницу с таблицей?
Сергей Карбивничий, Думаю да, вот она:
Ссылка

Answer 1 · 2020-12-06 01:42:22

Не знаю, разберетесь ли вы в коде, но как мог - комментировал:

from bs4 import BeautifulSoup
import csv

def parsing(filename):
	with open(filename,encoding='cp1251') as file:
		data = file.read()

	soup = BeautifulSoup(data,"lxml")
	table1 = soup.select_one("table[style='width:100%;border-color:#000000']").select("table")[0] # Выбираем таблицу 1
	table2 = soup.select_one("table[style='width:100%;border-color:#000000']").select("table")[1] # Выбираем таблицу 2

	list1 = [] # Здесь будет список строк из первой таблицы
	list2 = [] # Здесь будет список строк из второй таблицы

	dataFromTable1 = table1.find_all('tr') # Ищем все теги tr в первой таблице
	
	for data in dataFromTable1[1:]: # Начинаем перебор со второго элемента, чтобы пропустить заголовок таблицы
		try:
			datalist = [] # Список для временного хранения каждой строки таблицы
			id, text, summa = data.find_all('td')
			datalist.append(id.text)
			datalist.append(text.text)
			datalist.append(summa.text.strip())
			list1.append(datalist) # Добавляем в цикле в список list1 список строк
		except ValueError:
			#HACK Не добавляем в список пустые строки
			pass
	
	dataFromTable2 = table2.find_all('tr')
	for data in dataFromTable2[1:]:
		td_tags = data.find_all('td')
		try:
			datalist = [] # Список для временного хранения каждой строки таблицы
			for tag in td_tags:
				datalist.append(tag.text.strip())
			if len(datalist) > 9: # Чтобы пропустить пустую строку в таблице, добавляем в список list2 только список, в котором больше 9-ти элементов
				list2.append(datalist) # Добавляем в цикле в список list2 список строк
		except ValueError:
			pass

	new_list = [] # Здесь будет объединенный список из list1 и list2
	for e,x in enumerate(list1): # объединением списки
		x.extend(list2[e])
		new_list.append(x)


	with open('uiki.csv','a') as file:
		writer = csv.writer(file)
		writer.writerows(new_list)

parsing('index.html') # Имя файла(или полный путь)

В коде возможны ошибки, нарушен PEP8, но на часах уже почти час ночи, поэтому как так.
Результат:

Как спарсить данные в одну таблицу? Или как объединить два словаря?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт