Как сделать так, чтобы парсинг происходил автоматом?

Question

N T @RG2

Beautiful Soup

Как сделать так, чтобы парсинг происходил автоматом?

Итак, я заново написал код.

import json
import codecs
import re
import time
from urllib.parse import quote, unquote
from urllib.request import urlopen 
import requests
from bs4 import BeautifulSoup
from sys import getdefaultencoding
import yaml
import requests
import bleach
from string import ascii_letters
from array import *
import numpy as np
 
 
url = "https://fasie.ru"
page = urlopen(url)
html = page.read().decode("utf-8")
soup = BeautifulSoup(html, "html.parser")
div = soup.find_all('div', class_ = 'wrap')
programms_list = div[1].find('ul', class_='').find_all('ul', class_='')[1]
hrefs = programms_list.find_all('a')
download_links = set()
response = requests.get(url+'/programs')
parse_text = BeautifulSoup(response.text, 'html.parser')
links = set([x.get('href') for x in parse_text.find_all(href=re.compile('^/programs/'))])
 
def main():
    for h in hrefs:
        program = {}
        url_h = f"https://fasie.ru/programs/programma-umnik/"
        page_h = urlopen(url_h)
        html_h = page_h.read().decode("utf-8")
        soup_h = BeautifulSoup(html_h, "html.parser")
        soup_b = BeautifulSoup(html_h, 'lxml')
        description = soup_h.find('section', {'id': 'content-tab3'})
        sus = url_h
        name = h.text.strip()
        desc = description.text.strip().replace('\n', '').replace('\t', '').replace('\r', '') if description else ''
        prog = str(soup_h.find('section', {'id': 'content-tab1'}).get_text()).replace('\n', ' ').replace('\t', ' ').replace('\r', ' ')
        try:
            notag = soup_b.find('section', id='content-tab5').find_all('tr')
        except AttributeError:
            notag = soup_b.find('section', id='content-tab4').find_all('p')
        for n in notag:
            nams = []
            tels = []
            emails = []
            contact = {}
            nam=[i.get_text(strip=True) for i in n.find_all('h4')]
            if nam==[]:
                nam=[i.get_text(strip=True) for i in n.find_all('b')]
            for i in nam:
                if i==' ':
                    pass
                else:
                    nams.append(i)
            email=[i.get_text(strip=True) for i in n.find_all('a')]
            for i in email:
                if i==' ':
                    pass
                else:
                    emails.append(i)
            tel=[i.get_text(strip=True) for i in n.find_all('nobr')]
            if tel==[]:
                number=[i.get_text(strip=True) for i in n.find_all('td')]
                gal=re.sub("[^0123456789\()+-]", '', str(number)).replace('[^a-zA-Z ]', '').replace('.', ' ').replace(')', ') ').replace('00() 0', '').encode('ascii', 'ignore').decode()
                tel=[gal]
            else:
                tel=[i.get_text(strip=True) for i in n.find_all('p')]
            for i in tel:
                if i=='':
                    pass
                else:
                    tels.append(i)
 
        sections = soup_h.find_all('section')
        for s in sections:
            download_links.update(set([x.get('href') for x in s.find_all(href=re.compile('^/upload/docs'))]))
        for link in download_links:
            file_name = unquote(link).replace('%20', '').split('/')[-1]
            response = requests.get(url+quote(link))
            with open(file_name, 'wb') as f:
                f.write(response.content)
            document = {}
            source = url+link.replace('%20', ' ')
            path = file_name
            nan = file_name
            extension = file_name.split('.')[-1]
            size = len(response.content)
        data = {'source': sus, 'name': name, 'description': desc, 'programs': prog, 'contacts':[{'namе': nam, 'tel': tel, 'email': email}], 'documents':[{'sоurce': source, 'path': path, 'nаmе': nan, 'extension': extension, 'size': size}]}
        data.appends
    with open('output.json', 'w', encoding="utf-8") as f:
        f.write(json.dumps(data, indent=2, ensure_ascii=False))
 
main()

Вывод в JSON получился вот таким

{
  "source": "https://fasie.ru/programs/programma-umnik/",
  "name": "Кооперация",
  "description": "Сроки приема заявок и проведения конкурсов в рамках программы «УМНИК» устанавливаются отдельно для каждого региона. Подробная информация о мероприятиях и сроках их проведения по соответствующему региону представлена на сайте umnik.fasie.ru.",
  "programs": "     Программа направлена на поддержку коммерчески ориентированных научно-технических проектов молодых исследователей.    Принимать участие в конкурсе по данной программе могут физические лица, от 18 до 30 лет включительно, являющиеся гражданами РФ, и ранее не побеждавшие в программе.    Параметры поддержки:    размер гранта – 500 тыс. рублей; срок выполнения НИР – не более 12 месяцев (2 этапа по 6 месяцев); направление расходов – проведение НИР.   Ожидаемые результаты:    подана заявка на регистрацию прав на результаты интеллектуальной деятельности, созданные в рамках выполнения НИР; разработан бизнес-план инновационного проекта либо подана заявка на участие в программе Фонда «Студенческий стартап»;  пройдена преакселерационная программа на базе организации, включенной в реестр аккредитованных Фондом преакселераторов, с целью проработки перспектив коммерческого использования результатов НИР;  составлена дорожная карта проекта.    При недостижении плановых показателей Фонд вправе потребовать возврата средств гранта.       Подробная информация о программе представлена в разделе «Документы» ",
  "contacts": [
    {
      "namе": [
        "Киселев Виталий Юрьевич"
      ],
      "tel": [
        "(495) 249-249-2189"
      ],
      "email": [
        "kiselev.vyu@fasie.ru"
      ]
    }
  ],
  "documents": [
    {
      "sоurce": "https://fasie.ru/upload/docs/Spisok_akseleratorov.docx",
      "path": "Spisok_akseleratorov.docx",
      "nаmе": "Spisok_akseleratorov.docx",
      "extension": "docx",
      "size": 16899
    }
  ]
}

Можно сделать так, чтобы выводились все контакты, ссылки из Ссылка удалена модератором. ? При этом, нужно, чтобы вывод был автоматическим. То есть, невручную.

Вопрос задан более двух лет назад
214 просмотров

4 комментария

Подписаться 1 Простой 4 комментария

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Профессия Графический дизайнер PRO

15 месяцев

Далее
Нетология

Фронтенд-разработчик

11 месяцев

Далее

Решения вопроса 1

25 комментариев

N T @RG2 Автор вопроса
Ошибка
PermissionError: [Errno 13] Permission denied: './programs/programma-razvitie/'
Написано более двух лет назад
N T @RG2 Автор вопроса

Как исправить эту ошибку? У вас остался output.json или вы его удалили? Или у вас тоже ошибка возникла?

Написано более двух лет назад
Bright144 @Bright144

Руслан Галикеев, видимо не может записывать файл

Написано более двух лет назад
Bright144 @Bright144

Руслан Галикеев, не хватает прав на запись по моему. попробуй запускать код на "D" диска или с правом администратора.

Написано более двух лет назад
Bright144 @Bright144

Bright144, ну посмотри тут в коде все по полочку ставлен отдельными функциями. Если проблема в записи и получение документов можеш редактировать def get_document.
Или можешь обработать ошибку с try except. У тебя файлы записывается?

Написано более двух лет назад
N T @RG2 Автор вопроса

Нет, всё равно возникает.

Написано более двух лет назад
N T @RG2 Автор вопроса

Bright144, записываются.

Написано более двух лет назад
Bright144 @Bright144

Руслан Галикеев, ты можешь вложить полный текст ошибки?

Написано более двух лет назад
Bright144 @Bright144

Руслан Галикеев, у нас интернет жестко ограничивается по этому не могу проверить код.

Написано более двух лет назад

N T @RG2 Автор вопроса

Вот, пожалуйста:

Traceback (most recent call last):
  File "D:\json\main.py", line 114, in <module>
    main()
  File "D:\json\main.py", line 109, in main
    data.append(p.run())
  File "D:\json\main.py", line 93, in run
    'documents':self.get_documents()
  File "D:\json\main.py", line 80, in get_documents
    with open(d['path'], 'wb') as f:
PermissionError: [Errno 13] Permission denied: './programs/programma-razvitie/'

Написано более двух лет назад

Bright144 @Bright144

Руслан Галикеев, ты же не изменил код?

Написано более двух лет назад

N T @RG2 Автор вопроса

Работает, но теперь новая ошибка.

Traceback (most recent call last):
  File "D:\json\main.py", line 118, in <module>
    main()
  File "D:\json\main.py", line 113, in main
    data.append(p.run())
  File "D:\json\main.py", line 96, in run
    'contacts':self.get_contact(),
  File "D:\json\main.py", line 41, in get_contact
    d['email'] = i.find('a').text
AttributeError: 'NoneType' object has no attribute 'text'

Написано более двух лет назад

N T @RG2 Автор вопроса

А если убрать .text, получится следующее:

Traceback (most recent call last):
  File "D:\json\main.py", line 118, in <module>
    main()
  File "D:\json\main.py", line 116, in main
    f.write(json.dumps(data, indent=2, ensure_ascii=False))
  File "C:\Users\Руслан\AppData\Local\Programs\Python\Python311\Lib\json\__init__.py", line 238, in dumps
    **kw).encode(obj)
  File "C:\Users\Руслан\AppData\Local\Programs\Python\Python311\Lib\json\encoder.py", line 202, in encode
    chunks = list(chunks)
  File "C:\Users\Руслан\AppData\Local\Programs\Python\Python311\Lib\json\encoder.py", line 430, in _iterencode
    yield from _iterencode_list(o, _current_indent_level)
  File "C:\Users\Руслан\AppData\Local\Programs\Python\Python311\Lib\json\encoder.py", line 326, in _iterencode_list
    yield from chunks
  File "C:\Users\Руслан\AppData\Local\Programs\Python\Python311\Lib\json\encoder.py", line 406, in _iterencode_dict
    yield from chunks
  File "C:\Users\Руслан\AppData\Local\Programs\Python\Python311\Lib\json\encoder.py", line 326, in _iterencode_list
    yield from chunks
  File "C:\Users\Руслан\AppData\Local\Programs\Python\Python311\Lib\json\encoder.py", line 406, in _iterencode_dict
    yield from chunks
  File "C:\Users\Руслан\AppData\Local\Programs\Python\Python311\Lib\json\encoder.py", line 439, in _iterencode
    o = _default(o)
  File "C:\Users\Руслан\AppData\Local\Programs\Python\Python311\Lib\json\encoder.py", line 180, in default
    raise TypeError(f'Object of type {o.__class__.__name__} '
TypeError: Object of type Tag is not JSON serializable

Написано более двух лет назад

N T @RG2 Автор вопроса

Bright144,

Traceback (most recent call last):
  File "D:\json\main.py", line 119, in <module>
    main()
  File "D:\json\main.py", line 114, in main
    data.append(p.run())
  File "D:\json\main.py", line 98, in run
    'documents':self.get_documents()
  File "D:\json\main.py", line 81, in get_documents
    with open(d['path'], 'wb') as f:
PermissionError: [Errno 13] Permission denied: './programs/programma-razvitie/'

Написано более двух лет назад

N T @RG2 Автор вопроса

А теперь так. Когда поставил pass после print(f"Ошибка при создание файла\nИсточник: {d['source']}\nПуть: {d['path']}\n")

Traceback (most recent call last):
  File "D:\json\main.py", line 119, in <module>
    main()
  File "D:\json\main.py", line 114, in main
    data.append(p.run())
  File "D:\json\main.py", line 98, in run
    'documents':self.get_documents()
  File "D:\json\main.py", line 81, in get_documents
    with open(d['path'], 'wb') as f:
FileNotFoundError: [Errno 2] No such file or directory: './programs/programma-internatsionalizatsiya/docs/2022-%D0%A2%D0%A0%D0%95%D0%91%D0%9E%D0%92%D0%90%D0%9D%D0%98%D0%AF_%D0%BA_%D0%BF%D0%BE%D0%B4%D0%B3%D0%BE%D1%82%D0%BE%D0%B2%D0%BA%D0%B5_%D1%84%D0%B8%D0%BD%D0%B0%D0%BD%D1%81%D0%BE%D0%B2%D1%8B%D1%85_%D0%BE%D1%82%D1%87%D0%B5%D1%82%D0%BE%D0%B2_%D0%B4%D0%BB%D1%8F_%D0%B4%D0%BE%D0%B3%D0%BE%D0%B2%D0%BE%D1%80%D0%BE%D0%B2,_%D0%B7%D0%B0%D0%BA%D0%BB%D1%8E%D1%87%D0%B5%D0%BD%D0%BD%D1%8B%D1%85_%D0%BF%D0%BE_%D1%82%D0%B8%D0%BF%D0%BE%D0%B2%D0%BE%D0%B9_%D1%84%D0%BE%D1%80%D0%BC%D0%B5_%D0%B2_2022-%D0%A0%D0%B0%D0%B7%D0%B2%D0%B8%D1%82%D0%B8%D0%B5.rtf'

Написано более двух лет назад

Bright144 @Bright144

Руслан Галикеев, причина в пустых ссылках. среди ссылок документов иногда встречается пустые ссылки вот таки <a href=""> </a>

Написано более двух лет назад
N T @RG2 Автор вопроса

Bright144, странно, у меня по-прежнему прерывает на пустой ссылке. Хотя я ввёл тот код, что скинули.

Написано более двух лет назад

Bright144 @Bright144

Руслан Галикеев, Вот исправленный код

Парсер.

import requests
from bs4 import BeautifulSoup
import re
import os
from urllib.request import urlopen
import json

class Parser:

    def __init__(self, href) -> None:
        self.url = "https://fasie.ru"
        self.href = href
        self.source = self.url + self.href['href']
        self.name = self.href.text
        try:
            r = requests.get(self.source, timeout=20)
        except:
            print(f'err. conn: {self.source} in "def __init__"')
        soup = BeautifulSoup(r.text, "html.parser")
        self.section = soup.find('div',{'class':'tabs'}).find_all('section')

    def get_description(self):
        l = re.findall(r"[^\n\t\r]+", self.section[2].text)
        return '\n'.join(map(str.strip, l))
        
    def get_program(self):
        l = re.findall(r"[^\n\t\r]+", self.section[0].text)
        return '\n'.join(map(str.strip, l))
    
    def get_contact(self):
        l = []
        pattern = r"(\+?[\d\(\) -]+)\s\(?доб\.\s?\d{3}\)?"
        if self.section[-1].find('tr'):
            for i in self.section[-1].find_all('tr'):
                d = {}
                d['name'] = i.find('h4').text.strip().replace('\xa0', ' ')
                d['tel'] = ''
                tmp = re.search(pattern, i.text)
                if tmp:
                    d['tel'] = tmp[1].strip()
                d['email'] = i.find('a').text
                l.append(d)
        elif self.section[-1].find('b'):
            name = [i.text for i in self.section[-1].find_all('b') if i.text.strip()]
            tel = re.findall(pattern, self.section[-1].text)
            email = self.section[-1].find_all('a')
            for i in zip(name, tel, email):
                d = {}
                d['name'] = i[0].strip().replace('\xa0', ' ')
                d['tel'] = i[1].strip()
                d['email'] = i[2].text
                l.append(d)
        else:
            for i in self.section[-1].find_all('p', recursive=False):
                if i.find('a'):
                    d = {}
                    d['name'] = ''
                    d['tel'] = ''
                    tmp = re.search(pattern, i)
                    if tmp:
                        d['tel'] = tmp[1].strip()
                    d['email'] = i.find('a').text
                    l.append(d)
        return l

    def get_documents(self):
        l = []
        for i in self.section[1].find_all('a'):
            if i['href']:
                d = {}
                d['source'] = self.url + '/' + i['href'].lstrip('/')
                d['path'] = '.'+ self.href['href'] + '/'.join(i['href'].replace('%20', '_').rsplit('/', 2)[-2:])
                d['name'] = d['path'].rsplit('/', 1)[-1]
                d['extension'] = d['name'].rsplit('.', 1)[-1]
                try:
                    r = requests.get(d['source'], timeout=20)
                except:
                    print(f"err. conn: {d['source']}")
                    continue
                if r.status_code == 200:
                    os.makedirs(os.path.dirname(d['path']), exist_ok=True)
                    try:
                        with open(d['path'], 'wb') as f:
                            f.write(r.content)
                    except:
                        print(f"Ошибка при создание файла\nТег: {i}")
                        raise
                    d['size'] = len(r.content)
                    l.append(d)
                else:
                    print(f"{d['source']} no response")
        return l
    
    def run(self):
        d = {
            'source':self.source,
            'name':self.name,
            'description':self.get_description(),
            'programs':self.get_program(),
            'contacts':self.get_contact(),
            'documents':self.get_documents()
        }
        return d


def main():
    url = "https://fasie.ru"
    page = urlopen(url)
    html = page.read().decode("utf-8")
    soup = BeautifulSoup(html, "html.parser")
    div = soup.find_all('div', class_ = 'wrap')
    programms_list = div[1].find('ul', class_='').find_all('ul', class_='')[1]
    hrefs = programms_list.find_all('a')
    data = []
    for i in hrefs:
        p = Parser(i)
        data.append(p.run())

    with open('output.json', 'w', encoding="utf-8") as f:
        f.write(json.dumps(data, indent=2, ensure_ascii=False))

main()

теперь программа, пустых ссылок документов будет пропускать и проверить ответ сервера

Написано более двух лет назад

Bright144 @Bright144

Руслан Галикеев, ок сейчас нашел нормальный VPN. Буду тестит сам.

Написано более двух лет назад
N T @RG2 Автор вопроса

Короче, я узнал, что всё дело в названии файла. Он содержит 581 символ, в то время, как допустимое значение должно быть 260 символов. Нужен код, которые подобные файлы пропускает.
Я для этого ввёл d['path'][:150]+".rtf"

Написано более двух лет назад

N T @RG2 Автор вопроса

Сработало. Но теперь осталась последняя ошибка (надеюсь).

Traceback (most recent call last):
  File "D:/json/main.py", line 122, in <module>
    main()
  File "D:/json/main.py", line 120, in main
    f.write(json.dumps(data, indent=2, ensure_ascii=False))
  File "C:\Users\Руслан\AppData\Local\Programs\Python\Python311\Lib\json\__init__.py", line 238, in dumps
    **kw).encode(obj)
  File "C:\Users\Руслан\AppData\Local\Programs\Python\Python311\Lib\json\encoder.py", line 202, in encode
    chunks = list(chunks)
  File "C:\Users\Руслан\AppData\Local\Programs\Python\Python311\Lib\json\encoder.py", line 430, in _iterencode
    yield from _iterencode_list(o, _current_indent_level)
  File "C:\Users\Руслан\AppData\Local\Programs\Python\Python311\Lib\json\encoder.py", line 326, in _iterencode_list
    yield from chunks
  File "C:\Users\Руслан\AppData\Local\Programs\Python\Python311\Lib\json\encoder.py", line 406, in _iterencode_dict
    yield from chunks
  File "C:\Users\Руслан\AppData\Local\Programs\Python\Python311\Lib\json\encoder.py", line 326, in _iterencode_list
    yield from chunks
  File "C:\Users\Руслан\AppData\Local\Programs\Python\Python311\Lib\json\encoder.py", line 406, in _iterencode_dict
    yield from chunks
  File "C:\Users\Руслан\AppData\Local\Programs\Python\Python311\Lib\json\encoder.py", line 439, in _iterencode
    o = _default(o)
  File "C:\Users\Руслан\AppData\Local\Programs\Python\Python311\Lib\json\encoder.py", line 180, in default
    raise TypeError(f'Object of type {o.__class__.__name__} '
TypeError: Object of type Tag is not JSON serializable

Написано более двух лет назад

N T @RG2 Автор вопроса

Заработало. Сам разобрался.

Написано более двух лет назад

Bright144 @Bright144

Руслан Галикеев,
Проверь это

Парсер

import requests
from bs4 import BeautifulSoup
import re
import os
from urllib.request import urlopen
import json
from urllib.parse import unquote

class Parser:

    def __init__(self, href) -> None:
        self.url = "https://fasie.ru"
        self.href = href
        self.source = self.url + self.href['href']
        self.name = self.href.text
        try:
            r = requests.get(self.source, timeout=20)
        except:
            print(f'err. conn: {self.source} in "def __init__"')
        soup = BeautifulSoup(r.text, "html.parser")
        self.section = soup.find('div',{'class':'tabs'}).find_all('section')

    def get_description(self):
        l = re.findall(r"[^\n\t\r]+", self.section[2].text)
        return '\n'.join(map(str.strip, l))
        
    def get_program(self):
        l = re.findall(r"[^\n\t\r]+", self.section[0].text)
        return '\n'.join(map(str.strip, l))

    def get_contact(self):
        l = []
        pattern = r"(\+?[\d\(\) -]+)\s\(?доб\.\s?\d{3}\)?"
        pattern_email = r"\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,7}\b"
        if self.section[-1].find('tr'):
            for i in self.section[-1].find_all('tr'):
                d = {}
                d['name'] = i.find('h4').text.strip().replace('\xa0', ' ').split('\r', 1)[0]
                tmp = re.search(pattern, i.text)
                d['tel'] = tmp[1] if tmp else ''
                tmp = re.search(pattern_email, i.text)
                d['email'] = tmp[0] if tmp else ''
                if sum(map(len, d.values())): 
                    l.append(d)
        elif self.section[-1].find('b'):
            name = [i.text for i in self.section[-1].find_all('b') if i.text.strip()]
            tel = re.findall(pattern, self.section[-1].text)
            email = [i.text for i in self.section[-1].find_all('a') if i.text]
            for i in zip(name, tel, email):
                d = {}
                d['name'] = i[0].strip().replace('\xa0', ' ')
                d['tel'] = re.sub(r'\s\(?доб\.\s?\d{3}\)', '', i[1].strip())
                d['email'] = i[2].strip()
                l.append(d)
        else:
            for i in self.section[-1].find_all('p', recursive=False):
                if i.find('a'):
                    d = {}
                    d['name'] = ''
                    tmp = re.search(pattern, i)
                    d['tel'] = tmp[0] if tmp else ''
                    d['email'] = i.find('a').text
                    l.append(d)
        return l

    def get_documents(self):
        l = []
        for i in self.section[1].find_all('a'):
            if i['href']:
                i['href'] = i['href'].replace(self.url, '')
                name = unquote(i['href'])
                d = {}
                d['source'] = self.url + '/' + i['href'].lstrip('/')
                d['path'] = f"./{self.href['href'].strip('/')}/{name}"
                d['name'] = name.rsplit('/', 1)[-1]
                d['extension'] = name.rsplit('.', 1)[-1]
                try:
                    r = requests.get(d['source'], timeout=20)
                except:
                    print(f"err. conn: {d['source']}")
                    continue
                if r.status_code == 200:
                    try:
                        os.makedirs(os.path.dirname(d['path']), exist_ok=True)
                    except:
                        print(f"Ошибка при создание папки\nТег: {i}\nname{d['path']}")
                        raise
                    try:
                        with open(d['path'], 'wb') as f:
                            f.write(r.content)
                    except:
                        print(f"Ошибка при создание файла\nТег: {i}")
                        raise
                    d['size'] = len(r.content)
                    l.append(d)
                else:
                    print(f"{d['source']} no response")
        return l
    
    def run(self):
        d = {
            'source':self.source,
            'name':self.name,
            'description':self.get_description(),
            'programs':self.get_program(),
            'contacts':self.get_contact(),
            'documents':self.get_documents()
        }
        return d


def main():
    url = "https://fasie.ru"
    page = urlopen(url)
    html = page.read().decode("utf-8")
    soup = BeautifulSoup(html, "html.parser")
    div = soup.find_all('div', class_ = 'wrap')
    programms_list = div[1].find('ul', class_='').find_all('ul', class_='')[1]
    hrefs = programms_list.find_all('a')
    data = []
    for i in hrefs:
        p = Parser(i)
        data.append(p.run())

    with open('output.json', 'w', encoding="utf-8") as f:
        f.write(json.dumps(data, indent=2, ensure_ascii=False))

main()

Написано более двух лет назад

N T @RG2 Автор вопроса

Уже лучше

Написано более двух лет назад
N T @RG2 Автор вопроса

Всё, больше кодить не нужно.

Написано более двух лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Beautiful Soup

Простой
Почему Soup.find возвращает None?
- 1 подписчик
- 03 авг.
- 86 просмотров
1

ответ
Python

+2 ещё

Простой
Как сделать, чтобы при парсинге bs4 как то надо нажать на кнопку «показать еще», чтобы подгрузило еще 20 постов?
- 1 подписчик
- 08 апр.
- 243 просмотра
2

ответа
Парсинг

+1 ещё

Простой
У меня не получается спарсить ссылку на фото с сайта, help?
- 1 подписчик
- 07 апр.
- 218 просмотров
2

ответа
Beautiful Soup

Средний
Как распарсить файл в табличной верстке через beatifulsoap?
- 1 подписчик
- 07 мар.
- 138 просмотров
1

ответ
Beautiful Soup

Простой
Нормально ли что парсинг занимает много оперативки?
- 2 подписчика
- более года назад
- 254 просмотра
2

ответа
Beautiful Soup

+1 ещё

Простой
Как пройти капчу при методе POST?
- 1 подписчик
- более года назад
- 256 просмотров
1

ответ
Beautiful Soup

Простой
Почему скачиваются миниатюры изображений вместо их полного размера?
- 1 подписчик
- более года назад
- 183 просмотра
0

ответов
Beautiful Soup

Простой
Почему парсер не выдаёт нужный результат?
- 1 подписчик
- более года назад
- 130 просмотров
1

ответ
Beautiful Soup

Простой
Python BeautifulSoup почему не работает код?
- 1 подписчик
- более года назад
- 81 просмотр
0

ответов
Beautiful Soup

Простой
Парсится только часть страницы. Как парсить всю страницу?
- 1 подписчик
- более года назад
- 82 просмотра
2

ответа
Показать ещё Загружается…

(KZ) Fullstack разработчик Middle+ / .NET + React / Трейдинг тематика

Jivestor • Актобе

До 2 600 €

(KZ) Fullstack разработчик Middle+ / .NET + React / Трейдинг тематика

Jivestor • Алматы

До 2 600 €

UI/UX Designer (приложение для поиска подруг)

SUMMEET

от 1 000 до 1 200 $

Не надо ставить как можно больше тэгов. Лучше оставить один, но конкретный, с которым проблема.
См.п.3.1 Регламента.
Так что тебе нужен? Хочешь парсить 5 сект полностю и у тебя не получается?

Answer 1 · 2023-04-02 19:15:39

Вот парсер

Парсер.

import requests
from bs4 import BeautifulSoup
import re
import os
from urllib.request import urlopen
import json

class Parser:

    def __init__(self, href) -> None:
        self.url = "https://fasie.ru"
        self.href = href
        self.source = self.url + self.href['href']
        self.name = self.href.text
        try:
            r = requests.get(self.source, timeout=20)
        except:
            print(f'err. conn: {self.source} in "def __init__"')
        soup = BeautifulSoup(r.text, "html.parser")
        self.section = soup.find('div',{'class':'tabs'}).find_all('section')

    def get_description(self):
        l = re.findall(r"[^\n\t\r]+", self.section[2].text)
        return '\n'.join(map(str.strip, l))
        
    def get_program(self):
        l = re.findall(r"[^\n\t\r]+", self.section[0].text)
        return '\n'.join(map(str.strip, l))
    
    def get_contact(self):
        l = []
        pattern = r"(\+?[\d\(\) -]+)\s\(?доб\.\s?\d{3}\)?"
        if self.section[-1].find('tr'):
            for i in self.section[-1].find_all('tr'):
                d = {}
                d['name'] = i.find('h4').text.strip().replace('\xa0', ' ')
                d['tel'] = ''
                tmp = re.search(pattern, i.text)
                if tmp:
                    d['tel'] = tmp[1].strip()
                d['email'] = i.find('a').text
                l.append(d)
        elif self.section[-1].find('b'):
            name = [i.text for i in self.section[-1].find_all('b') if i.text.strip()]
            tel = re.findall(pattern, self.section[-1].text)
            email = self.section[-1].find_all('a')
            for i in zip(name, tel, email):
                d = {}
                d['name'] = i[0].strip().replace('\xa0', ' ')
                d['tel'] = i[1].strip()
                d['email'] = i[2].text
                l.append(d)
        else:
            for i in self.section[-1].find_all('p', recursive=False):
                if i.find('a'):
                    d = {}
                    d['name'] = ''
                    d['tel'] = ''
                    tmp = re.search(pattern, i)
                    if tmp:
                        d['tel'] = tmp[1].strip()
                    d['email'] = i.find('a').text
                    l.append(d)
        return l

    def get_documents(self):
        l = []
        for i in self.section[1].find_all('a'):
            d = {}
            d['source'] = self.url + i['href']
            d['path'] = '.'+ self.href['href'] + '/'.join(i['href'].replace('%20', '_').rsplit('/', 2)[-2:])
            d['name'] = d['path'].rsplit('/', 1)[-1]
            d['extension'] = d['name'].rsplit('.', 1)[-1]
            try:
                r = requests.get(d['source'], timeout=20)
            except:
                print(f"err. conn: {d['source']} in 'def get_documents'")
                continue
            os.makedirs(os.path.dirname(d['path']), exist_ok=True)
            with open(d['path'], 'wb') as f:
                f.write(r.content)
            d['size'] = len(r.content)
            l.append(d)
        return l
    
    def run(self):
        d = {
            'source':self.source,
            'name':self.name,
            'description':self.get_description(),
            'programs':self.get_program(),
            'contacts':self.get_contact(),
            'documents':self.get_documents()
        }
        return d


def main():
    url = "https://fasie.ru"
    page = urlopen(url)
    html = page.read().decode("utf-8")
    soup = BeautifulSoup(html, "html.parser")
    div = soup.find_all('div', class_ = 'wrap')
    programms_list = div[1].find('ul', class_='').find_all('ul', class_='')[1]
    hrefs = programms_list.find_all('a')
    data = []
    for i in hrefs:
        p = Parser(i)
        data.append(p.run())

    with open('output.json', 'w', encoding="utf-8") as f:
        f.write(json.dumps(data, indent=2, ensure_ascii=False))

main()

Парсить этот сайт будет не легко. Потому что в сайте секции в table в одном странице строка, в другом странице таблицы, в другом еще чего. В сайте каждый табель по своему по другому устроен. Но доков и контактов будет парсить без проблем, но надо тестировать.

Как сделать так, чтобы парсинг происходил автоматом?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт