Как сделать поиск по первому заходу на сайт?

Question

wkainen @wkainen

Как сделать поиск по первому заходу на сайт?

Я новичок и без образования, помогите пожалуйста
Написал парсер, который ходит по списку сайтов из Эксель и по возможности извлекает соц сети.
Проблема в том, что я не понимаю как сделать, чтобы он извлекал сразу же все соц сети, а не каждый раз для определенной делал заход. Пробовал переносить Data, чтобы он не отбирал снова, но он ее просто не видит в поиске допустим дискордан,помогите пожалуйся. А так Эта штука работает

# Ищет тг и твиттер по сайтам и дискорд
options = Options()
ua = UserAgent()
userAgent = ua.random
option = webdriver.ChromeOptions()
option.add_argument('headless')
option.add_argument(f'user-agent={userAgent}')
browser = webdriver.Chrome(executable_path='//Users//kainen//Downloads//chromedriver//chromedriver', options=option)
            
def telegram(tg_web):

    try:
        if tg_web:

            browser.get(f'{tg_web}')

            soup = BeautifulSoup(browser.page_source, 'lxml')
            #time.sleep(2)
            scrapped_page = soup.findAll('a')
            #print(scrapped_page)
            data = []
            for All_tags in scrapped_page:
                All_link = All_tags.get('href')
                
                data.append(All_link)
                
                for i in range(len(data)):
                    tg_followers = ''
                    if 't.me' in data[i]:
                        tg_followers = data[i]        
                        break
        
                    
        else:
            tg_followers = ''
            
    except Exception as e:
        tg_followers = ''
        
        print(f'Error occur with link {tg_web}: {e}')

    return tg_followers


def twitter(tw_web):

    try:
        if tw_web:

            browser.get(f'{tw_web}')

            soup = BeautifulSoup(browser.page_source, 'lxml')
            
            scrapped_page = soup.findAll('a')
            #print(scrapped_page)
            data = []
            for All_tags in scrapped_page:
                All_link = All_tags.get('href')
                
                data.append(All_link)
                
                for i in range(len(data)):
                    tw_followers = ''
                    if 'twitter' in data[i]:
                        tw_followers = data[i]        
                        break
        
                    
        else:
            tw_followers = ''
            
    except Exception as e:
        tw_followers = ''
        
        print(f'Error occur with link {tw_web}: {e}')

    return tw_followers

def discord(disc_web):

    try:
        if disc_web:

            browser.get(f'{disc_web}')

            soup = BeautifulSoup(browser.page_source, 'lxml')
            
            scrapped_page = soup.findAll('a')
            #print(scrapped_page)
            data = []
            for All_tags in scrapped_page:
                All_link = All_tags.get('href')
                
                data.append(All_link)
                
                for i in range(len(data)):
                    disc_followers = ''
                    if 'discord' in data[i]:
                        disc_followers = data[i]        
                        break
        
                    
        else:
            disc_followers = ''
            
    except Exception as e:
        disc_followers = ''
        
        print(f'Error occur with link {tw_web}: {e}')

    return disc_followers

def linked(linked_web):

    try:
        if linked_web:

            browser.get(f'{linked_web}')

            soup = BeautifulSoup(browser.page_source, 'lxml')
            
            scrapped_page = soup.findAll('a')
            #print(scrapped_page)
            data = []
            for All_tags in scrapped_page:
                All_link = All_tags.get('href')
                
                data.append(All_link)
                
                for i in range(len(data)):
                    linked_followers = ''
                    if 'linked' in data[i]:
                        linked_followers = data[i]        
                        break
        
                    
        else:
            linked_followers = ''
            
    except Exception as e:
        linked_followers = ''
        
        print(f'Error occur with link {linked_web}: {e}')

    return linked_followers





def main():
    print(f'\nRescoring started at {datetime.datetime.now()}')
    writer = pd.ExcelWriter(f'{os.getcwd()}/Closed_lost_2020_followers.xlsx')

    df = pd.read_excel('//Users//kainen//Downloads//chromedriver//Result_25.xlsx', sheet_name=0)
    df['Telegram_followers'] = ''
    df['Twitter_followers'] = ''
    df['Discord_followers'] = ''
    df['linked_followers'] = ''
    
    for index, row in df.iterrows():
        try:
            df.loc[index, 'Telegram_followers'] = telegram(row['telegram'])
            df.loc[index, 'Twitter_followers'] = twitter(row['telegram'])
            df.loc[index, 'Discord_followers'] = discord(row['telegram'])
            df.loc[index, 'linked_followers'] = linked(row['telegram'])

            
            print(f'Lead: {row["id"]}, tg: {df.loc[index, "Telegram_followers"]}, tw: {df.loc[index, "Twitter_followers"]}, disc: {df.loc[index, "Discord_followers"]}, linked: {df.loc[index, "linked_followers"]}')

        except Exception as e:
            print(f'Error occured with lead {row["id"]}: {e}')
    df.to_excel(writer, sheet_name='Closed_lost_with_followers', index=False)
    writer.save()
    print (f'\nScript executed!\n')
    return

 
#schedule.every(30).minutes.do(main)   
    
    
if __name__ == '__main__':
    try:
    
        main()
    except Exception as e:
        print(f'\nError occured: {e}')
        
    #access_token = get_access_token('amocrm_followers_scrapping.db')
    #print(access_token)

Вопрос задан более трёх лет назад
150 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- час назад
- 21 просмотр
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 185 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 316 просмотров
1

ответ
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 2 подписчика
- 20 окт.
- 194 просмотра
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 274 просмотра
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 169 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 644 просмотра
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 142 просмотра
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 153 просмотра
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 584 просмотра
2

ответа
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Answer 1 · 2022-10-04 14:40:53

При обходе с сайтов сначала получить исходный код страницы soup = BeautifulSoup(browser.page_source, 'lxml')
а потом к нему применять разные функции - поиск linked, twitter и так далее
То есть в main
for website in websiteList:
..
soup = BeautifulSoup(browser.page_source, 'lxml')
linkedResult = linked(soup) # принимает на вход не url а уже разобранную структуру т.е. soup
tgResult = telegram (soup)

Изучай основы языка, без этого будешь на самых простых местах стопориться.

Как сделать поиск по первому заходу на сайт?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт