@khodos_dmitry

Какой уровень изоляции транзакций выбрать для парсинга?

Скрипт выполняется кроном раз в минуту. Берет 10 страниц и парсит. Нужно, чтобы эти 10 страниц блокировались на время выполнения скрипта. Чтобы следующий скрипт не взял себе парсить некоторые из этих страниц. А следующий скрипт брал не заблакированные страницы.
После того, как страница спарсится, соответствующее значение подставляется в столбец parse в таблице.
Или для этого транзакции не подходят?
  • Вопрос задан
  • 111 просмотров
Пригласить эксперта
Ответы на вопрос 1
dmitriylanets
@dmitriylanets
веб-разработчик
можно через базу организовать, пусть фиксируеются страницы которые в работе, паралельный скрипт может делать проверку на наличие в работе и пропускать.
то есть я бы разделил задачу на два этапа сбор информации о страницах которые нужно парсить и собственно парсинг этих страниц, в момент работы можно менять статус страницы READY, WORK,COMPLETE
соответственно параллельные скрипты должны получать страницы для парсинга в READY состоянии

хотя даже и добавил бы третий этап это получение данных страниц расположенных локально:
1. получение пула страниц
2. скачка страниц в локальное хранилище
3. извлечение информации из локальных страниц
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
YCLIENTS Москва
от 200 000 до 350 000 ₽
Ведисофт Екатеринбург
от 25 000 ₽
ИТЦ Аусферр Магнитогорск
от 100 000 до 160 000 ₽
25 апр. 2024, в 11:49
25000 руб./за проект
25 апр. 2024, в 11:37
40000 руб./за проект