Как сделать поиск по первому заходу на сайт?

Question

wkainen @wkainen

Как сделать поиск по первому заходу на сайт?

Я новичок и без образования, помогите пожалуйста
Написал парсер, который ходит по списку сайтов из Эксель и по возможности извлекает соц сети.
Проблема в том, что я не понимаю как сделать, чтобы он извлекал сразу же все соц сети, а не каждый раз для определенной делал заход. Пробовал переносить Data, чтобы он не отбирал снова, но он ее просто не видит в поиске допустим дискордан,помогите пожалуйся. А так Эта штука работает

# Ищет тг и твиттер по сайтам и дискорд
options = Options()
ua = UserAgent()
userAgent = ua.random
option = webdriver.ChromeOptions()
option.add_argument('headless')
option.add_argument(f'user-agent={userAgent}')
browser = webdriver.Chrome(executable_path='//Users//kainen//Downloads//chromedriver//chromedriver', options=option)
            
def telegram(tg_web):

    try:
        if tg_web:

            browser.get(f'{tg_web}')

            soup = BeautifulSoup(browser.page_source, 'lxml')
            #time.sleep(2)
            scrapped_page = soup.findAll('a')
            #print(scrapped_page)
            data = []
            for All_tags in scrapped_page:
                All_link = All_tags.get('href')
                
                data.append(All_link)
                
                for i in range(len(data)):
                    tg_followers = ''
                    if 't.me' in data[i]:
                        tg_followers = data[i]        
                        break
        
                    
        else:
            tg_followers = ''
            
    except Exception as e:
        tg_followers = ''
        
        print(f'Error occur with link {tg_web}: {e}')

    return tg_followers


def twitter(tw_web):

    try:
        if tw_web:

            browser.get(f'{tw_web}')

            soup = BeautifulSoup(browser.page_source, 'lxml')
            
            scrapped_page = soup.findAll('a')
            #print(scrapped_page)
            data = []
            for All_tags in scrapped_page:
                All_link = All_tags.get('href')
                
                data.append(All_link)
                
                for i in range(len(data)):
                    tw_followers = ''
                    if 'twitter' in data[i]:
                        tw_followers = data[i]        
                        break
        
                    
        else:
            tw_followers = ''
            
    except Exception as e:
        tw_followers = ''
        
        print(f'Error occur with link {tw_web}: {e}')

    return tw_followers

def discord(disc_web):

    try:
        if disc_web:

            browser.get(f'{disc_web}')

            soup = BeautifulSoup(browser.page_source, 'lxml')
            
            scrapped_page = soup.findAll('a')
            #print(scrapped_page)
            data = []
            for All_tags in scrapped_page:
                All_link = All_tags.get('href')
                
                data.append(All_link)
                
                for i in range(len(data)):
                    disc_followers = ''
                    if 'discord' in data[i]:
                        disc_followers = data[i]        
                        break
        
                    
        else:
            disc_followers = ''
            
    except Exception as e:
        disc_followers = ''
        
        print(f'Error occur with link {tw_web}: {e}')

    return disc_followers

def linked(linked_web):

    try:
        if linked_web:

            browser.get(f'{linked_web}')

            soup = BeautifulSoup(browser.page_source, 'lxml')
            
            scrapped_page = soup.findAll('a')
            #print(scrapped_page)
            data = []
            for All_tags in scrapped_page:
                All_link = All_tags.get('href')
                
                data.append(All_link)
                
                for i in range(len(data)):
                    linked_followers = ''
                    if 'linked' in data[i]:
                        linked_followers = data[i]        
                        break
        
                    
        else:
            linked_followers = ''
            
    except Exception as e:
        linked_followers = ''
        
        print(f'Error occur with link {linked_web}: {e}')

    return linked_followers





def main():
    print(f'\nRescoring started at {datetime.datetime.now()}')
    writer = pd.ExcelWriter(f'{os.getcwd()}/Closed_lost_2020_followers.xlsx')

    df = pd.read_excel('//Users//kainen//Downloads//chromedriver//Result_25.xlsx', sheet_name=0)
    df['Telegram_followers'] = ''
    df['Twitter_followers'] = ''
    df['Discord_followers'] = ''
    df['linked_followers'] = ''
    
    for index, row in df.iterrows():
        try:
            df.loc[index, 'Telegram_followers'] = telegram(row['telegram'])
            df.loc[index, 'Twitter_followers'] = twitter(row['telegram'])
            df.loc[index, 'Discord_followers'] = discord(row['telegram'])
            df.loc[index, 'linked_followers'] = linked(row['telegram'])

            
            print(f'Lead: {row["id"]}, tg: {df.loc[index, "Telegram_followers"]}, tw: {df.loc[index, "Twitter_followers"]}, disc: {df.loc[index, "Discord_followers"]}, linked: {df.loc[index, "linked_followers"]}')

        except Exception as e:
            print(f'Error occured with lead {row["id"]}: {e}')
    df.to_excel(writer, sheet_name='Closed_lost_with_followers', index=False)
    writer.save()
    print (f'\nScript executed!\n')
    return

 
#schedule.every(30).minutes.do(main)   
    
    
if __name__ == '__main__':
    try:
    
        main()
    except Exception as e:
        print(f'\nError occured: {e}')
        
    #access_token = get_access_token('amocrm_followers_scrapping.db')
    #print(access_token)

Вопрос задан более трёх лет назад
150 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как получить порядковый номер в отсортированной таблице топов пользователей?
- 1 подписчик
- 37 минут назад
- 36 просмотров
0

ответов
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- час назад
- 30 просмотров
0

ответов
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- вчера
- 288 просмотров
2

ответа
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 205 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 136 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 125 просмотров
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 243 просмотра
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 102 просмотра
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 495 просмотров
2

ответа
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 247 просмотров
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Answer 1 · 2022-10-04 14:40:53

При обходе с сайтов сначала получить исходный код страницы soup = BeautifulSoup(browser.page_source, 'lxml')
а потом к нему применять разные функции - поиск linked, twitter и так далее
То есть в main
for website in websiteList:
..
soup = BeautifulSoup(browser.page_source, 'lxml')
linkedResult = linked(soup) # принимает на вход не url а уже разобранную структуру т.е. soup
tgResult = telegram (soup)

Изучай основы языка, без этого будешь на самых простых местах стопориться.

Как сделать поиск по первому заходу на сайт?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт