Как правильно преобразовать при помощи python данные с json в таблицу mysql (формат db)?

Question

N T @RG2

Как правильно преобразовать при помощи python данные с json в таблицу mysql (формат db)?

Здравствуйте ещё раз. Есть код, который выполняет парсинг с сайта в json. Код работает.
Хочу, чтобы данные с json были преобразованы в таблицу db. Находил много способов в Интернете, но там обязательно нужно было вводить код доступа в localhost. А я бы хотел, чтобы выполнялось без подключения. Написал код.

import requests
import json
from bs4 import BeautifulSoup
import re
from datetime import date, timedelta
import asposecells
import jpype
from openpyxl import Workbook
import pandas as pd
import mysql.connector
import sqlite3
 
PAGES_COUNT = 1
OUT_FILENAME = 'out2.json'
 
import warnings
 
warnings.filterwarnings("ignore")
 
 
def get_soup(url, **kwargs):
    response = requests.get(url, **kwargs, verify=False)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, features='html.parser')
    else:
        soup = None
    return soup
 
 
def crawl_products(pages_count):
    urls = []
    fmt = 'https://www.rfbr.ru/rffi/ru/contest?CONTEST_STATUS_ID=-1&CONTEST_TYPE=-1&CONTEST_YEAR=-1&page={page}'
    for page_n in range(1, 1 + pages_count):
        print('page: {}'.format(page_n))
 
        page_url = fmt.format(page=page_n)
        soup = get_soup(page_url)
        if soup is None:
            break
 
        for tag in soup.select('.tr .link'):
            href = tag.attrs['href']
            url = 'https://www.rfbr.ru/rffi/ru/contest{}'.format(href)
            urls.append((url, page_n))
    return urls
 
 
def parse_products(urls):
    data = []
 
    for url in urls:
        print('product: {}'.format(url[0]))
 
        soup = get_soup(url[0])
        if soup is None:
            break
 
        for j in soup.find_all("main", {"class": "template__main"}):
            for jj in j.find_all("div", {"class": "sfc l-3 mt-5 mb-10 lh-xl"}):
                ja = re.sub(r'[^\x00-\x7f]', r'', str(jj))
                jo = re.sub(r'\<[^>]*\>', '', str(ja))
                ji = re.sub(r'_', '', str(jo))
                ju = re.sub(r'  ', '', str(ji))
                je = re.sub(r' :', '', str(ju))
                jy = je[13:]
                amount = jy
        rponse = requests.get(url[0], verify=False)
        sp = BeautifulSoup(rponse.text, "lxml")
        document = {}
        item = {}
        dcs = sp(attrs={"class": "list-in article"})
        for z in dcs:
            document[z.h2.text] = list(z.ol.stripped_strings)
            # document[z.h2.text] = tuple(z.ol.stripped_strings)
 
        # в одну строку с разделителем запятая
        for z in dcs:
            document[z.h2.text] = ', '.join(z.ol.stripped_strings)
        try:
            article = [l.get_text(strip=True) for l in soup.find_all("p") if l.get_text(strip=True)]
            art = str(article).replace("['", '').replace("']", '')
        except:
            article = [l.get_text(strip=True) for l in soup.find_all("h2") if l.get_text(strip=True)]
            art = str(article).replace("['", '').replace("']", '')
        for row in soup.select('td'):
            cols = row.select('td')
            cols = [c.text.strip() for c in cols]
        name = [i.get_text(strip=True) for i in soup.find_all("h1") if i.get_text(strip=True)]
        ame = str(name).replace("['", '').replace("']", '')
        _page = f'?page={url[1]}'
        p = get_soup(f'https://www.rfbr.ru/rffi/ru/contest{_page}')
        for img_td in p.select('.tr'):
            image = img_td.select_one("img").get('alt')
        item['Название'] = ame
        item['Статус'] = image
        item['Время окончания приема заявок'] = amount
        item['Полное описание условий конкурса'] = art
        item['Документы'] = document
        data.append(item)
 
    return data
 
 
def dump_to_json(filename, data, **kwargs):
    kwargs.setdefault('ensure_ascii', False)
    kwargs.setdefault('indent', 1)
 
    with open(OUT_FILENAME, 'w', encoding="utf-8") as f:
        json.dump(data, f, **kwargs)

 
def main():
    urls = crawl_products(PAGES_COUNT)
    data = parse_products(urls)
    dump_to_json(OUT_FILENAME, data)
 
    with open(OUT_FILENAME, 'w', encoding="utf-8") as f:
        json.dump(data, f, ensure_ascii=False, indent=1)

    with open(OUT_FILENAME, encoding='utf-8') as de:
        mate = json.load(de)

    df = pd.DataFrame(mate)

    conn = sqlite3.connect("data.db")
    c = conn.cursor()

    df.to_sql("tablename",conn,if_exists='replace')

if __name__ == '__main__':
    main()

И у меня выходит вот такая ошибка:

sqlite3.ProgrammingError: Error binding parameter 6: type 'dict' is not supported

Что нужно исправить?

Вопрос задан более двух лет назад
446 просмотров

3 комментария

Подписаться 2 Простой 3 комментария

Rsa97 @Rsa97

MySQL !== SQLite

Написано более двух лет назад
mayton2019 @mayton2019

Ты вообще зачем теги dBase, Json поставил? Людей только с толку сбивает. Не знаешь что это - не ставь!

Чисто совет опытного. У тебя здесь в одном вопросе аж 2 или 3 разных звучат. Вот разбей свой вопрос
на разные и задай отдельно.

И нет такого формата db. Расширению db соответсвует миллион файловых форматов и никто
не захочет разбираться что там ты имеешь в виду.

Написано более двух лет назад
Модератор @TosterModerator

Когда вы регистрировались, вы обещали выполнять Регламент. Ваше сообщение нарушило сразу несколько параграфов Регламента - 3.1, 3.4 и др.
Если вы будете продолжать нарушать Регламент, ваши вопросы могут быть удалены, а аккаунт заблокирован модераторами временно или навсегда.
Будьте благоразумны.

Написано более двух лет назад

Решения вопроса 1

2 комментария

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Дублирование логов в python logging?
- 2 подписчика
- 13 часов назад
- 122 просмотра
1

ответ
Python

+1 ещё

Простой
Pycharm для старенького мака??
- 1 подписчик
- вчера
- 158 просмотров
3

ответа
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 116 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 512 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 105 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 525 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 142 просмотра
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 122 просмотра
1

ответ
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 546 просмотров
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Ты вообще зачем теги dBase, Json поставил? Людей только с толку сбивает. Не знаешь что это - не ставь!

Чисто совет опытного. У тебя здесь в одном вопросе аж 2 или 3 разных звучат. Вот разбей свой вопрос
на разные и задай отдельно.

И нет такого формата db. Расширению db соответсвует миллион файловых форматов и никто
не захочет разбираться что там ты имеешь в виду.
Когда вы регистрировались, вы обещали выполнять Регламент. Ваше сообщение нарушило сразу несколько параграфов Регламента - 3.1, 3.4 и др.
Если вы будете продолжать нарушать Регламент, ваши вопросы могут быть удалены, а аккаунт заблокирован модераторами временно или навсегда.
Будьте благоразумны.

Answer 1 · 2023-07-21 16:11:41

Ну и нагородил ты тут. При чем здесь mysql если ты в конце используешь sqlite. В общем проблема в том что по всей видимости у тебя твой твой датафрейм содержит питоновский объект dict, а не должен. во первых pandas имеет метод pd.read_json() во вторых есть метод json_normalize() если json содержит "вложенные словари". Приведи в порядок свой датафрейм, и данные запишутся в базу. Не знаешь, как привести датафрейм в порядок, показывай его и отдельным вопросом.

Как правильно преобразовать при помощи python данные с json в таблицу mysql (формат db)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт