Как запустить python html парсер в несколько потоков?

Question

Mark Adams @ilyakmet

Как запустить python html парсер в несколько потоков?

Есть данные ( >1кк строк), по каждой строке идет запрос urllib.request.urlopen(). Я разбил базу на 30 частей. Теперь надо одновременно запустить 30 одинаковых скриптов для каждой части. Как это реализовать?
Пробовал в терминале запускать 2 скрипта сразу, через "python_script_1&python_script_2", все работает отлично, но как быть если 30 скриптов? Тут самое проблемное, это организация директорий (я конечно прописал в каждом скрипте os.path.abspath(os.curdir)).
Прошу помочь практическими советами, читать про многопоточность нет времени.

Вопрос задан более трёх лет назад
3036 просмотров

Комментировать

Подписаться 15 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Профессиональная вёрстка на HTML и CSS

3 месяца

Далее
Stepik

Основы HTML и CSS

2 недели

Далее
OTUS

HTML/CSS

3 месяца

Далее

Решения вопроса 1

9 комментариев

Алексей Черемисин @leahch

Добавлю - вместо urllib пользуйте requests - docs.python-requests.org/en/latest

Написано более трёх лет назад
Mark Adams @ilyakmet Автор вопроса

А как быть с директориями? Куда данные записывать, есть идеи?

Написано более трёх лет назад

asd111 @asd111

Илья Кметь: можно сделать примерно так:

import urllib2 
from multiprocessing.dummy import Pool as ThreadPool 

urls = [
  ['http://www.python.org', "название нужной директории1"],
  ['http://www.python.org/about/', "название нужной директории2"],
  ['http://www.onlamp.com/pub/a/python/2003/04/17/metaclasses.html', ,"название нужной директории3"],
  ['http://www.python.org/doc/', "название нужной директории4"]
  ]

# Make the Pool of workers
pool = ThreadPool(4) 

def my_func(input):
    get_http(input[0])
    save_todir(input[1]) 

# Open the urls in their own threads
# and return the results
results = pool.map(my_func, urls)

#close the pool and wait for the work to finish 
pool.close() 
pool.join()

Написано более трёх лет назад

Mark Adams @ilyakmet Автор вопроса

Я верно понимаюб, что если закину в urls 35к ссылок, то они обработаются в один момент?

Написано более трёх лет назад
asd111 @asd111

Илья Кметь: зависит от мощности компьютера и от ширины ThreadPool. В данном коде только 4 процесса, а для 35к нужно больше. Это пример.

Написано более трёх лет назад
nirvimel @nirvimel

asd111: Вы, наверное, имели в виду, что в данном коде только 1 процесс с 4 потоками.
Алексей Черемисин: А еще существует https://github.com/kennethreitz/grequests , это такой requests под gevent.

Написано более трёх лет назад
Алексей Черемисин @leahch

nirvimel: О! Спасибо, буду знать, если gevent пользовать буду.
Илья Кметь Данные пишите в базу. например в mongo или redis или что там у вас. они же для этого и предназначены. Я вот с elasticsearch разбираюсь, если поиск по выборкам делать - самое оно!

Написано более трёх лет назад
Mark Adams @ilyakmet Автор вопроса

asd111: А как распределяются ссылки между потоками? Как определить одному потоку конкретную часть ссылок?

Написано более трёх лет назад
asd111 @asd111

Илья Кметь: распределение происходит равномерно до тех пор пока есть ссылки. Допустим у вас 20 потоков(в данном случае процессы) - ссылки будут распределяться на каждый поток пока не закончатся.
Чтобы распределять каждому потоку определенную часть ссылок понадобится писать настоящие потоки. Это не так уж сложно. Пишете класс потока, в нем делает функцию run, потом запускаете поток и передаете при запуске нужную частью массива.
Например:
myThread(ulrs[:100])
www.tutorialspoint.com/python/python_multithreading.htm

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Ошибка 403 при попытке логина на Codecov. Почему?
- 1 подписчик
- 42 минуты назад
- 16 просмотров
1

ответ
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 1 подписчик
- вчера
- 125 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 210 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 141 просмотр
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 548 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 116 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 146 просмотров
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 544 просмотра
2

ответа
HTML

+1 ещё

Простой
Как в руководстве steam сделать обтекающий картинку текст?
- 1 подписчик
- 08 окт.
- 123 просмотра
1

ответ
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 148 просмотров
2

ответа
Показать ещё Загружается…

Верстальщик / фронтендер для браузерного расширения

DevTeam.Space

от 1 000 до 2 000 $

Специалист технической поддержки (чат)

WebSoft

от 50 000 до 70 000 ₽

Web-разработчик

ЭНДИ Консалтинг

от 40 000 до 40 000 ₽

Answer 1 · 2016-04-07 12:36:25

Самая простая многопоточность:

import urllib2 
from multiprocessing.dummy import Pool as ThreadPool 

urls = [
  'http://www.python.org', 
  'http://www.python.org/about/',
  'http://www.onlamp.com/pub/a/python/2003/04/17/metaclasses.html',
  'http://www.python.org/doc/'  
  ]

# Make the Pool of workers
pool = ThreadPool(4) 

# Open the urls in their own threads
# and return the results
results = pool.map(urllib2.urlopen, urls)

#close the pool and wait for the work to finish 
pool.close() 
pool.join()

Answer 2 · 2016-04-07 21:06:15

освой MultiCurl , там довольно легко перестроить имена сохранямых файлов

скачиваешь, потом по директории прходишь и разбираешь, можно без всяких мультипроцессоров даже, основная трата времени - получение с удаленного сервера

Answer 3 · 2016-04-07 18:31:13

sim3x @sim3x

cat list | parallel -j 30 ./script.py {}

Ответ написан более трёх лет назад

Комментировать

Как запустить python html парсер в несколько потоков?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт