@khodos_dmitry

Какой уровень изоляции транзакций выбрать для парсинга?

Скрипт выполняется кроном раз в минуту. Берет 10 страниц и парсит. Нужно, чтобы эти 10 страниц блокировались на время выполнения скрипта. Чтобы следующий скрипт не взял себе парсить некоторые из этих страниц. А следующий скрипт брал не заблакированные страницы.
После того, как страница спарсится, соответствующее значение подставляется в столбец parse в таблице.
Или для этого транзакции не подходят?
  • Вопрос задан
  • 111 просмотров
Пригласить эксперта
Ответы на вопрос 1
dmitriylanets
@dmitriylanets
веб-разработчик
можно через базу организовать, пусть фиксируеются страницы которые в работе, паралельный скрипт может делать проверку на наличие в работе и пропускать.
то есть я бы разделил задачу на два этапа сбор информации о страницах которые нужно парсить и собственно парсинг этих страниц, в момент работы можно менять статус страницы READY, WORK,COMPLETE
соответственно параллельные скрипты должны получать страницы для парсинга в READY состоянии

хотя даже и добавил бы третий этап это получение данных страниц расположенных локально:
1. получение пула страниц
2. скачка страниц в локальное хранилище
3. извлечение информации из локальных страниц
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы