Стоит задача найти у 1000 разнообразнейших сайтов все соц сети, телегу твиттер, неважно. Так как структура разная через обычный поиск по тегам/селекторам не работает.
Подскажите как это можно решить, пробовал через bs4, сайт распиливается, а дальше у меня ступор как вырвать именно ссылку начинающуюся допустим на 't.me'
Пробовал также selenium через
browser.find_element(By.PARTIAL_LINK_TEXT)
Но результата никакого не было, подскажите есть ли какое то универсальное решение.
data = []
options = Options()
ua = UserAgent()
userAgent = ua.random
print(userAgent)
options.add_argument(f'user-agent={userAgent}')
browser = Chrome ('//Users//kainen//Downloads//chromedriver//chromedriver')
for p in range(0,1):
url = f'https://aleph.im/#/'
browser.get(url)
soup = BeautifulSoup(browser.page_source, 'lxml')
telegram = soup.get('href').get
data.append(soup)
print(soup)