Задать вопрос

gordon_shamway

Шамуэй @gordon_shamway

python

Python

Многопоточный парсинг на python, как правильно реализовать?

Есть 500 txt файлов, в каждом файле лежит 1000 ссылок(через запятую). Все ссылки относятся к одному сайту.
Как правильно можно реализовать многопоточный парсинг по этим страницам хотябы в 10-20 потоков

Я придумал такой вариант, но незнаю он верный или нет?

# Примерный псевдокод
# Беру из папки первый txt файл
# Извлекаю из файла 10 ссылок
# Для каждой ссылки запускаю отдельный поток
# Сохраняю результат в бд
# Ожидаю завершение последнного потока
# Сон от 10 секунд до минуты
#Удаляю из файла эти 10 ссылок
# Беру следующие 10 ссылок
# и так далее

Это нормальный вариант или есть более лучше и верный подход?
И что лучше использовать multiprocessing или thread?

Вопрос задан более трёх лет назад
404 просмотра

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Решения вопроса 2

sim3x

sim3x @sim3x

scrapy
cat list*.txt | parallel --jobs 20 script.py

Ответ написан более трёх лет назад

2 комментария

2 комментария

longclaps

longclaps @longclaps

Лучше aiohttp

Ответ написан более трёх лет назад

Комментировать

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- вчера
- 128 просмотров
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 211 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 143 просмотра
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 112 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 246 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 133 просмотра
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 138 просмотров
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 140 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 256 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 426 просмотров
1

ответ
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽