Как в несколько потоков проверять существование url?

Question

Ivan Yakushenko @kshnkvn

yay ✌️ t.me/kshnkvn

Как в несколько потоков проверять существование url?

Есть простой код, которым проверяю на валидность страницы:

def check_url():
    for page in range(0, 239999):
        soup = BeautifulSoup(get_html(url + str(page)), 'html.parser')
        if soup.find('h3', class_='description_404_A hide'):
            print('Page not exists: {}'.format(url + str(page)))
        else:
            print('Page found: {}'.format(url + str(page)))
            with open('pages.txt', 'a') as file:
                file.write(url + str(page) + '\n')

Естественно проверять на существование 239999 страниц чуть-чуть долго.
Как вариант я могу просто запустить несколько потоков с multiprocessing, каждый из которых будет проверять свой диапазон страниц, но я не думаю, что это python-way.

Вопрос задан более трёх лет назад
250 просмотров

2 комментария

Подписаться 1 Средний 2 комментария

Решения вопроса 2

36 комментариев

sim3x @sim3x

Если не охото парится, то испольуем scrapy - без aws булшита

Написано более трёх лет назад
Иван Шумов @inoise

sim3x, ой как мне не нравятся такие кустарные решения)

Написано более трёх лет назад
sim3x @sim3x

Иван Шумов, вот и я ж говорю, что не нужно тут aws приплетать

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Я правильно понимаю, что вы предлагаете мне вместо запуска десятка строк кода в ~30 потоков на сервере, что даст мне результат за несколько часов, пойти и изучать что такое "AWS SQS + AWS Lambda" с учетом того, что я вообще не понимаю что это и никогда не работал?
P.S. Это как-то связано с тем, что вы "AWS Certified"?

Написано более трёх лет назад
Иван Шумов @inoise

sim3x, его я буду толкать всегда и везде по тому как ну слишком удобно на нем делать все что к полу не приколочено)

Написано более трёх лет назад
sim3x @sim3x

Иван Шумов,
Оно проходит после того, как амазон счет выставляет, а советчик перестает выходить на связь )

Написано более трёх лет назад
Иван Шумов @inoise

Ivan Yakushenko, я не предлагаю именно вам, а говорю что при знаниях можно ваши несколько часов упихать в несколько минут. Вы серьезно результат такой бесполезной обработки хотите ожидать часами? Еще и получить бан своего IP?

Написано более трёх лет назад
Иван Шумов @inoise

sim3x, для этого надо читать раздел pricing)

Написано более трёх лет назад
sim3x @sim3x

Иван Шумов,
Енто потом все понимают

А в советах обычно никто не пишет, как правильно посчитать мудреные лимиты и косты простого решения

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Иван Шумов, 1 - я не собираюсь сидеть перед монитором и "ждать", думаю я найду чем заняться, пока скрипт где-то там на сервере работает. 2- прокси же.

Написано более трёх лет назад
Иван Шумов @inoise

sim3x,
А в советах обычно никто не пишет, как правильно посчитать мудреные лимиты и косты простого решения

я как-то уже привык что с этого начинается, а не этим заканчивается)

Написано более трёх лет назад
Иван Шумов @inoise

Ivan Yakushenko, ваше дело. Но если у себя то кролик вам в помощь - накидали заданий, поставили сколько хотите обработчиков (сколько проц позволяет) и вперед. Скорость кролика из коробки - 10к сообщений в секунду.

Написано более трёх лет назад
sim3x @sim3x

Иван Шумов, Оу

Я еще раз перечитал ваш ответ и не увидел ничего такого

Написано более трёх лет назад
Astrohas @Astrohas

На самом дела AWS LAmbda хорош когда его знаешь и есть время на трахание с ним. Делал обработчик нескольких миллионов изображений на lambda, работало очень быстро, но разработка заняла втрое больше времени

Написано более трёх лет назад
Иван Шумов @inoise

Astrohas, это по первой. я вот когда стал играть с Lambda@Edge для их CDN вообще делал круглые глаза и кричал "это вообще законно?!"

Написано более трёх лет назад
Иван Шумов @inoise

sim3x,
Я еще раз перечитал ваш ответ и не увидел ничего такого

Просто по тому что мне это очевидно, вам это очевидно. Мне настолько что даже не озвучиваю этот постулат

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Иван Шумов, в целом за ваш совет спасибо, rabbitmq и aws lambda я в закладки добавил, но изучение этого занятие не на один вечер, так что не сейчас.

Написано более трёх лет назад
sim3x @sim3x

Иван Шумов,
Я видимо неправильно формулирую вопрос
Я просил указать в ответе, как посчитать цену указанной вашей связки в деталях

Написано более трёх лет назад
Иван Шумов @inoise

sim3x, а, просто же. Есть же даже калькулятор.

Написано более трёх лет назад
sim3x @sim3x

Иван Шумов,
в деталях
желательно еще и без их калькулятора
Я уверен, что только для его использования нужно проходить курсы

Тем более, что оно для вас
это очевидно

Написано более трёх лет назад
Иван Шумов @inoise

sim3x,
окай. 239999 запросов надо сделать и куда-то сложить результат.
SQS: хотим быстро, дешево и параллельно поэтому:
Standard Queue
- За запрос: $0.00000040
- Входящий трафик: бесплатно
- Исходящий трафик: до 1Gb / месяц бесплатно (допускаю что средний url весит 256 байт и это 0,06Gb)
FreeTier:
- первый миллион запросов / месяц бесплатно

Lambda
Мощностей больших тут не надо, поэтому рассчет для 256Mb RAM:
- За 100ms: $0.000000417
- 1,600,000 секунд free
- за запрос $0.0000002
FreeTier:
- первый миллион запросов / месяц бесплатно
- 400 000 GB-секунд / месяц бесплатно
Будем считать что таймаут на обработку - 1 секунда (хотя даже при 5 секундах из Free Tier оно не выйдет)

Давайте это хранить ... Ну, в DynamoDB:
Write request units(1 KB): $1.25 за миллион потраченых юнитов ()
Хранилище первые 25 GB / месяц бесплатны
Входящий трафик бесплатен

Ну и в итоге получаем что на 239999 запросов мы спокойно с многократным запасом ничего не тратим.
А если без FreeTier то:

SQS:
Запросы: 0,00000040*239999*2 = $0,1919992 (*2 это по тому что оно pull based)

Lambda:
За время: 0,000000417*239999*10 = $1,00079583
за запросы 0,0000002*239999 = $0,0479998

DynamoDB:
запись: 1,25*0,239999 = $0,29999875

Итого:
0,1919992+1,00079583+0,0479998+0,29999875 = ~$1,54

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Иван Шумов, посоветовать книгу/документацию по aws sqs/lambda можете? Однозначно добавлю в закладки, интересно выглядит.

Написано более трёх лет назад
Иван Шумов @inoise

Ivan Yakushenko, acloud.guru) от А до Я

Написано более трёх лет назад
Иван Шумов @inoise

Ivan Yakushenko, а если не платить за курсы то там очень неплохая дока, но нужно хоть с чего-то начать. А именно общей инфраструктуры AWS. А потом сразу углубляться в Complete Serverless Course

Написано более трёх лет назад
sim3x @sim3x

Иван Шумов, спасибо

Написано более трёх лет назад
Иван Шумов @inoise

sim3x, это действительно было полезно?

Написано более трёх лет назад
sim3x @sim3x

Иван Шумов, да
ПС: я серьезно

Написано более трёх лет назад
Иван Шумов @inoise

sim3x, для общего развития и понимания что serverless не ...

Написано более трёх лет назад
sim3x @sim3x

Иван Шумов,
С aws у меня получается комбинация
- новояз и названия выдуманные самой компанией
- сложный не плоский прайс
- вендорлок

Потому за пределы EC2 я редко выхожу

Написано более трёх лет назад
Иван Шумов @inoise

sim3x, иногда трудно считать стоимость, поэтому есть люди вроде меня, которые знают широко и знают как считать и как оптимизировать стоимость. Например, а EC2 можно жить ТОЛЬКО на Spot Instances, если припрет) и платить копейки.

Вендорлок это не плохо, как я всегда говорил. Любая платформа требует интеграции и даже Premises. Так что слабенький аргумент. А терминология это наживное)

PS В общем - захочешь побольше пообщаться про это - предлагаю перенести в какую-нибудь личку этот флейм или созвониться) Меня может быть не заткнуть, а от топика мы отошли

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Иван Шумов, можете и дальше отходить от темы - мне это самому интересно. Я относительно недавно начал заниматься программированием и очень много различных стеков мне интересны, так что я с удовольствием читаю советы и обсуждения знающих и опытных людей.

Написано более трёх лет назад
Иван Шумов @inoise

Ivan Yakushenko, смотри чтоб голова не лопнула от переизбытка информации) Слона надо жрать по частям

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Иван Шумов, я все интересное в закладки закидываю, а потом по мере времени/знаний/возможности читаю. Недавно чуть-чуть докер освоил, теперь слюной от счастья брыжжу во все стороны, нарадоваться не могу. А в целом на облачные платформы поглядывал давно, но без понимания что это, зачем и с какой стороны подойти. Сейчас на примере конкретных решений базовое понимание появилось, по-этому в закладки и закинул.

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Иван Шумов, да и в целом я максимальный ноулайфер - бывают дни, когда программированием по 14-16 часов занимаюсь =)

Написано более трёх лет назад
Иван Шумов @inoise

Ivan Yakushenko,
бывают дни, когда программированием по 14-16 часов занимаюсь

не надо так)

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Иван Шумов, так а заняться то особо и нечем все-равно.

Написано более трёх лет назад

3 комментария

Ivan Yakushenko @kshnkvn Автор вопроса

Почему так много людей хвалят scrappy и плюются в bs4? Так и не смог найти в интернете адекватного сравнения. Можете, пожалуйста, привести хотя-бы несколько аргументов почему мне прямо сейчас стоит бросить bs4 и пойти изучать scrappy?

Написано более трёх лет назад
Roman K @deliro

Ivan Yakushenko, потому что bs — это говно. Вот прям говно-говно. Я тебе говорю, как страдавший раньше человек с 8 (восемь) парсерами в одном проекте, все из которых юзали bs. Он медленный, он синхронный, у него отвратительное API (это ключевое). Приходится строить города из индентаций, потому что этот чёрт просто не умеет в EAFP. Или городить свои недо-функции. Вот например, bs не умеет в xpath. Представляешь? Ключевой функционал любого HTML парсера отсутствует. Живи с этим.

В итоге, я оставил bs, но подкостылил его eventlet'ом и подключил парсер lxml. Но весь этот проект — сущий ад.

Scrapy позволяет параллелить и парсить быстро и без головной боли вообще.

Написано более трёх лет назад
sim3x @sim3x

Ivan Yakushenko,
скрапи комбайн для парсинга
Он умеет все что вам нужно, и то что вы не знаете что хотите - тоже умеет
Скрапи по дефолту использует lxml

bs ненужная прокладка между вами и lxml (потому как bs без lxml никто не использует), которая не решает всех ваших задач

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

7 комментариев

Ivan Yakushenko @kshnkvn Автор вопроса

Чем asyncio лучше multiprocessing?
Я несколько раз "пробовал на вкус" её, но для себя нашел только несколько непонятных моментов с блокирующими операциями и аспектами в плане создания цикла событий, так и отложил пока её в сторону, не найдя внятного ответа на вопрос "почему мне нужно использовать asyncio?".

Написано более трёх лет назад
Astrohas @Astrohas

Ivan Yakushenko, Потому что пока идет загрузка, вы можете делать другие задачи...

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Astrohas, так с multiprocessing я тоже могу создать очередь выполнения и пойти дальше выполнять другой код, пока "в сторонке" обрабатывается очередь.

Написано более трёх лет назад
hairygeek @hairygeek

Ivan Yakushenko, только вот для 239999 потоков у вас оперативной памяти не хватит. А async/await менее требователен к ресурсам

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

hairygeek, о ограничении максимального кол-ва процессов вы не слышали?

Написано более трёх лет назад
Anton Kuzmichev @Assargin

Ivan Yakushenko, у вас 99% времени работы кода - ожидание страницы, сетевое взаимодействие. Тут явно напрашивается асинхронщина. Которую, впрочем, никто не мешает совместить с multiprocessing и получить ещё больше профита. В любом случае, тут узким местом будет именно интернет-соединение, ваше ли, или сайт/хостинг решит, что вы его ддосите.

Написано более трёх лет назад
hairygeek @hairygeek

Ivan Yakushenko, слышал, конечно. А к чему здесь это?

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Не работает код, что делать?
- 2 подписчика
- 10 авг.
- 1917 просмотров
4

ответа
Python

Простой
Почему консольная программа перестает работать спустя время?
- 3 подписчика
- 08 авг.
- 2247 просмотров
3

ответа
Python

Простой
Как делать удаленную печать на python?
- 1 подписчик
- 08 авг.
- 138 просмотров
2

ответа
Python

Простой
Как импортировать модуль из git?
- 1 подписчик
- 07 авг.
- 157 просмотров
0

ответов
Python

+3 ещё

Простой
Как с помощью Kaspersky Security Center запустить скрипт?
- 1 подписчик
- 04 авг.
- 166 просмотров
0

ответов
Python

+2 ещё

Простой
Как в группе Telegram ответить скриптом на сообщение пользователя, на которое я отвечал сообщением, которое как раз таки запустило скрипт (telethon)?
- 1 подписчик
- 04 авг.
- 206 просмотров
1

ответ
Python

Простой
Почему у меня программа вообще не реагирует на свойства в python?
- 1 подписчик
- 02 авг.
- 250 просмотров
3

ответа
Python

Простой
Python клон проекта, как создать?
- 1 подписчик
- 01 авг.
- 217 просмотров
1

ответ
Python

+2 ещё

Простой
Как добавить опцию в контекстное меню для Internet Shortcuts?
- 1 подписчик
- 30 июл.
- 148 просмотров
1

ответ
Python

+2 ещё

Простой
Как в Pyrogram получить id отправленного сообщения?
- 1 подписчик
- 30 июл.
- 148 просмотров
1

ответ
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python-разработчик (Senior)

BCraft

от 3 500 до 4 500 $

Не используйте bs
continue???
Зачем вам для данной задачи питон впринципе?
Тут нужен curl grep + parallel
continue???

Ой, то я его убрать забыл, когда проверял запрос не написав еще блок else.

Answer 1 · 2019-06-20 20:00:12

много раз уже говорили что горизонтально масштабировать stateless обработчики это к очередям) RabbitMQ, например.
А если охота не париться то берете AWS SQS + AWS Lambda и получаете обработку всего этого за .... я думаю за пару минут справится) даже во freetier может уложиться

Answer 2 · 2019-06-20 20:55:47

Если у вас есть задача после, что-то делать с данными страницами, то используйте scrapy
Он умеет все что вам требуется

Если просто получить список - страница/код ответа, то parallel + curl