Как оптимизировать API для парсера на Python?

Question

Itvanya @Itvanya

Как оптимизировать API для парсера на Python?

Друзья, привет! В качестве повышения квалификации пишу небольшой многопоточный парсер, а также API к нему для доступа через веб. Ресурс, с которого я буду парсить, предоставляет свой API, который ну очень ограничен в целях безопасности. А я хочу парсить все и отдавать данные в xml/json. В качестве инструментов буду использовать request + lxml + postgresql + nginx + uwsgi + стандартный модуль threading для многопоточного запроса и парсинга страниц. Вопрос состоит в том, как кешировать данные в базу, чтобы при аналогичном запросе данные забирались из кеша. Мне нужно забрать из ответа сервера заголовки Last-Modified и сравнивать их с каждым новым запросом, чтобы осуществлять кэширование без ошибок?
Спасибо.

Вопрос задан более трёх лет назад
739 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 1 подписчик
- 9 часов назад
- 24 просмотра
0

ответов
Веб-разработка

+2 ещё

Сложный
Сайт висит при первом заходе на него. Как такое исправить?
- 3 подписчика
- 20 мая
- 675 просмотров
4

ответа
Python

+3 ещё

Простой
Авто торговля на байбите?
- 1 подписчик
- 15 мая
- 347 просмотров
1

ответ
Python

Простой
Как научиться извлекать математическую модель для решения задач на программирование?
- 1 подписчик
- 14 мая
- 251 просмотр
2

ответа
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 286 просмотров
1

ответ
React

+1 ещё

Средний
Почему идёт постоянная загрузка страницы на React?
- 1 подписчик
- 23 апр.
- 194 просмотра
1

ответ
Nginx

Простой
Как изменить nginx v 1.30 конфиг для laravel или обычного php?
- 1 подписчик
- 18 апр.
- 160 просмотров
2

ответа
Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 282 просмотра
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 321 просмотр
2

ответа
Python

Простой
В чем ошибка в использовании ft.ResponsiveView в данном коде?
- 1 подписчик
- 08 апр.
- 103 просмотра
1

ответ
Показать ещё Загружается…

Answer 1 · 2015-12-25 11:09:23

пересмотрите свои взгляды на жизнь. зачем наступать на грабли, на которые уже кто-то наступал. посмотрите на готовые решения. к примеру Scrapy. Шикарная библиотека для парсинга со своим сервером

Answer 2 · 2015-12-25 15:41:50

В качестве инструментов буду использовать ... стандартный модуль threading для многопоточного запроса и парсинга страниц.

Глупо. Всмысле неэффективно. Многопоточность в питоне очень скользкая тема.
Парсинг веб-ресурсов в основном затыкается на ожидании ответа ресурса, с которого грузятся странички. И это время ожидания сравнимо, а иногда и вовсе превышает время разбора страницы.
Попробуйте лучше асинхронный подход. Asyncio для python >=3.3, gevent для 2.x (можно другие варианты по своему вкусу)

А что касается самого вопроса, то слишком мало информации для нормального ответа. Если на заголовки можно положиться для этого конкретного ресурса, то почему бы и нет? А если нельзя? Мы по ту сторону монитора не видим, что там есть еще. Что там за данные? Как часто они меняются? Возможно удастся понять по каким критериям можно кешировать, изучая сами данные (а не ответы сервера). Возможно ответ есть в документации API ресурса. Или вообще придется определять это на глаз, смотреть попали-непопали и подгонять условия...
Вобщем смотрите, изучайте, и принимайте решения :)

Как оптимизировать API для парсера на Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт