Ответы пользователя sowrong

Задать вопрос

Ответы

Как оптимизировать API для парсера на Python?

sowrong @sowrong

В качестве инструментов буду использовать ... стандартный модуль threading для многопоточного запроса и парсинга страниц.

Глупо. Всмысле неэффективно. Многопоточность в питоне очень скользкая тема.
Парсинг веб-ресурсов в основном затыкается на ожидании ответа ресурса, с которого грузятся странички. И это время ожидания сравнимо, а иногда и вовсе превышает время разбора страницы.
Попробуйте лучше асинхронный подход. Asyncio для python >=3.3, gevent для 2.x (можно другие варианты по своему вкусу)

А что касается самого вопроса, то слишком мало информации для нормального ответа. Если на заголовки можно положиться для этого конкретного ресурса, то почему бы и нет? А если нельзя? Мы по ту сторону монитора не видим, что там есть еще. Что там за данные? Как часто они меняются? Возможно удастся понять по каким критериям можно кешировать, изучая сами данные (а не ответы сервера). Возможно ответ есть в документации API ресурса. Или вообще придется определять это на глаз, смотреть попали-непопали и подгонять условия...
Вобщем смотрите, изучайте, и принимайте решения :)

Ответ написан более трёх лет назад

2 комментария

2 комментария

Самые активные сегодня

rPman
- 3 ответа
- 0 вопросов
TheIrishMan
- 2 ответа
- 1 вопрос
Drno
- 2 ответа
- 0 вопросов
Кот Абсолютный
- 2 ответа
- 0 вопросов
getl
- 1 ответ
- 0 вопросов
pavel_shabalin
- 1 ответ
- 0 вопросов

Как оптимизировать API для парсера на Python?

Войдите на сайт