Python Web: Multiprocessing vs Threads. Что лучше использовать для парсинга?

Question

JRazor @JRazor

Senior StarkOverFlow Programmer

Python Web: Multiprocessing vs Threads. Что лучше использовать для парсинга?

Видимо я не слишком понимаю разницу, но я не пойму - что лучше использовать для web-парсинга? Есть ли русское чтиво на эту тему?

Вопрос задан более трёх лет назад
3721 просмотр

Комментировать

Подписаться 8 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
SF Education

Бэкенд-разработчик на Python

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

3 комментария

JRazor @JRazor Автор вопроса

Радовался как ребенок, когда узнал про xpath. Раньше парсил через cssselect. Радость ушла после часа мозгоклюйства и кучи не найденных элементов. Такая удобная вещь, а так криво работает. Наверное, мы просто не умеем ее готовить. :)

Написано более трёх лет назад
JRazor @JRazor Автор вопроса

@zxmd Cssselect работает c xpath! Я снова рад, как ребенок. Спасибо за совет)

Написано более трёх лет назад
sim3x @sim3x

@JRazor csspath работает не с xpath, а через него

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 154 просмотра
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 83 просмотра
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 96 просмотров
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 115 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 223 просмотра
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 378 просмотров
1

ответ
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 3 подписчика
- 20 окт.
- 256 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 2 подписчика
- 19 окт.
- 303 просмотра
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 179 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 677 просмотров
3

ответа
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Answer 1 · 2014-01-30 12:37:15

Можно использовать Scrapy. Вам тогда не придется думать о параллельных процессах, блокировках и IO в целом. Вы просто пишете логику разбора страницы. Сам проект на Twisted.

Answer 2 · 2014-01-30 12:59:31

Одно хочу сказать про lxml - не используейт его parse с передачей URL в качетве источника. Лучше скачать страницу тем же request и загнать ее в lxml через document_fromstring - много себе нервных клеток сэкономите.

Python Web: Multiprocessing vs Threads. Что лучше использовать для парсинга?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт