Как пропускать просмотренные ссылки на Python?

Question

Александр Шилов @tabbols95

Недопрограммист

Как пропускать просмотренные ссылки на Python?

Доброго времени суток, тостерцы!)
Есть сборщик ссылок, написанный на Python.

Вот тут вот он

import requests
from bs4 import BeautifulSoup

def get_html(url):
	result = requests.get(url)
	return result.text

def get_total_pages(html):
	soup = BeautifulSoup(html, 'lxml')
	divs = soup.find('div', class_='pagination-pages clearfix')
	pages = divs.find_all('a', class_='pagination-page')[-1].get('href').split('=')[1] #если всего 1 равно
	return pages

def get_links(html, url_site, site_end):
	soup = BeautifulSoup(html, 'lxml')
	div = soup.find('div', class_='catalog-list js-catalog-list clearfix')
	len_links = len(div.find_all('a', class_='item-description-title-link'))
	file = open('file_links_avito.txt', 'a')
	for j in range(0, len_links):
		links = div.find_all('a', class_='item-description-title-link')[j].get('href')
		#links = url_site+links
		site = url_site+str(links)
		if site == site_end:
			file.close()
			exit()
		else:
			file.write('{}{}\n'.format(url_site, links))
			print('{}. {}{}'.format(j, url_site, links))
	file.close()
	return links

def main():
	site_end = 'https://www.avito.ru/vologda/komnaty/komnata_12_m_v_1-k_35_et._1559836158'
	url = 'https://www.avito.ru/vologodskaya_oblast/komnaty/prodam?p=1'
	url_site = 'https://www.avito.ru'
	base_url = 'https://www.avito.ru/vologodskaya_oblast/komnaty/prodam?p='
	for i in range(1, int(get_total_pages(get_html(url)))+1):
		get_links(get_html(base_url+str(i)), url_site, site_end)
		print('Page {}'.format(i))
	input('Работа завершена!\nДля выхода нажмите [Enter]')

if __name__ == '__main__':
	main()

Вопрос в том, можно ли сделать так, что при повторном запуске, ссылки, которые я уже просматривал, в этот раз я их не собирал?

Вопрос задан более трёх лет назад
214 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
SF Education

Бэкенд-разработчик на Python

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 1

10 комментариев

Александр Шилов @tabbols95 Автор вопроса

а ему не тяжело будет сравнивать каждый раз новую ссылку с большим списком?

Написано более трёх лет назад
bbkmzzzz @bbkmzzzz

А зачем каждый раз? Один раз при запуске обрабатывать, потом по актуальному списку идти.

Написано более трёх лет назад
Александр Шилов @tabbols95 Автор вопроса

bbkmzzzz, так он каждый час запускается, и собирает новые ссылки. А среди них уже появляются ссылки (рекламные), которые уже просматривались и их мне надо проигнорировать.

Написано более трёх лет назад
bbkmzzzz @bbkmzzzz

Ну так пиши в файл то, что уже обработано, при запуске читай и сравнивай с новыми, работай только с актуальными. Времени это займет не много. Дампить можно в json формате, в принципе, меньше мороки с форматом данных.

Написано более трёх лет назад
Александр Шилов @tabbols95 Автор вопроса

bbkmzzzz, так там порядка пол миллиона строк, и каждую ссылку сравнивать с этой пол миллиона строк?

Написано более трёх лет назад
bbkmzzzz @bbkmzzzz

Если надо пропустить что-то, нужно это сначала сохранить, а потом сравнить с новым. Можно использовать БД, например встроенную SQLite. 500к строк это не много) запустите сверку в тестовом скрипте и замерьте время.

Написано более трёх лет назад
bbkmzzzz @bbkmzzzz

Можно еще вариант со словарями, но нужен уникальный идентификатор какой-то. Собираете данные в словарь, пишете в файл json. При запуске читаете словарь из файла, и в процессе работы сверяете с ним. Словарь хеширован, и скорость работы выше списков.

Написано более трёх лет назад
redcyb @redcyb

bbkmzzzz, ещё можно set, который тоже хеширован и такой же быстрый как словарь, только чуть тоньше

Написано более трёх лет назад
NaName @NaName

bbkmzzzz, сложность поиска по ключам словаря константа (О(1)). можно ссылки использовать как ключи. с бд тоже самое (сложность поиска О(1)) если запрос НЕ неправильный.

Написано более трёх лет назад
Emil Revencu @Revencu

sqlite, и не забудьте добавить PRAGMA JOURNAL_MODE=OFF и PRAGMA synchronous=OFF

Написано более трёх лет назад