Какие библиотеки использовать для написания асинхронного многопоточного чекера сайтов на python?
Есть задача написать чекер сайтов по списку на питоне, на входе - файл с 1кк доменов, нужно пройтись по каждому (в идеале - асинхронно и в несколько потоков) и проверить вхождение определенного текста в исходном коде страницы. Если текст присутствует - записать эти домены в отдельный файл на выходе.
Что посоветуете? Возможно либы какие, статьи почитать там? В питоне совсем новичок, просто многопоточный вариант сего наг*внокодил, но скорость не радует и где-то память течет :(
в твоем простейшем случае проще сделать баш скрипт на parallels + curl + grep
или сделать питон скрипт для парсинга одного домена и запустить его через паралелс
$ aptitude show parallel
Package: parallel
Section: universe/utils
Maintainer: Ubuntu Developers <ubuntu-devel-discuss@lists.ubuntu.com>
Architecture: all
Depends: perl-modules, sysstat, perl
Conflicts: moreutils, moreutils:i386
Description: build and execute command lines from standard input in parallel
GNU Parallel is a shell tool for executing jobs in parallel using one or
more machines. A job is typically a single command or a small script that
has to be run for each of the lines in the input. The typical input is a
list of files, a list of hosts, a list of users, or a list of tables.
If you use xargs today you will find GNU Parallel very easy to use. If
you write loops in shell, you will find GNU Parallel may be able to
replace most of the loops and make them run faster by running jobs in
parallel. If you use ppss or pexec you will find GNU Parallel will often
make the command easier to read.
GNU Parallel also makes sure output from the commands is the same output
as you would get had you run the commands sequentially. This makes it
possible to use output from GNU Parallel as input for other programs.
Homepage: https://www.gnu.org/software/parallel/