Как раздавать уникальные записи таблицы во многопоточном парсере?

Question

Иван Иванов @romalu

MySQL

Как раздавать уникальные записи таблицы во многопоточном парсере?

Приблизительная задача - спарсить 10 000 000 страниц html сайта в таблицу mysql innodb.
Пусть есть 1000 прокси и мощный сервер.
Есть таблица urls с полями:

id, url, parsed (0, 1), datetime_added, datetime_start_parsed (NULL по умолчанию), datetime_end_parsed(NULL по умолчанию)

В таблице уже есть ссылки на страницы (url), которые надо спарсить

parsed - 0 - страница еще не спаршена, 1 - страница спаршена.
datetime_added - дата и время добавления урл в таблицу, уже заполнено
datetime_start_parsed - дата и время начала парсинга страницы
datetime_end_parsed - дата и время успешного парсинга страницы

Планируется парсинг запускать с помощью скрипта php многопоточно (кроном или супервизором), каждому запуску выдавать уникальный прокси и урл.
Вопрос - как выдать уникальный урл?

Т. е. в скрипт php передается номер прокси ($proxy_id), через который будет идти парсинг (от 1 до 1000). Дальше как?
Если делать так для $proxy_id = 5 делаем offset 4:

Select * from urls where parsed = '0' and datetime_start_parsed IS NULL order by id asc limit 4, 1

Получаем уникальный id записи (например 25), затем помечаем, что начали парсить страницу

Update urls set datetime_start_parsed = текущее время where id = 25

Затем скачиваем html страницы, сохраняем в другую таблицу, и отмечаем, что урл успешно спаршен

Update urls set datetime_end_parsed = текущее время where id = 25
Update urls set parsed = '1' where id = 25

Вопрос - как сделать так, чтобы каждый урл парсился только один раз? Ведь может же быть, что первый запросом запросится одна и та же запись в двух разных процессах php? Как сделать, чтобы такого не было? Подозреваю, как-то через транзакции? Как? Никогда с ними не работал, подскажите. Спасибо.

Вопрос задан более трёх лет назад
128 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Java-разработчик

8 месяцев

Далее
Shultais Education

Основы SQL

3 месяца

Далее
OTUS

PHP Developer. Professional

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

9 комментариев

Дмитрий @iMedved2009

то что вы написали вроде как и называется оптимистичной блокировкой

Написано более трёх лет назад
Rsa97 @Rsa97

Стоит добавить ещё время взятия задания, чтобы отсекать по таймауту случаи, когда скрипт не освободил задание (вылетел по ошибке, был убит, питание выключилось и т.п.).

Написано более трёх лет назад
Adamos @Adamos

Rsa97, в вопросе уже есть время начала и окончания парсинга.
Условие элементарно переделывается в "начало IS NULL OR (окончание IS NULL и начало уже протухло)"

Написано более трёх лет назад
Иван Иванов @romalu Автор вопроса
Что-то запрос не быстро работает, пробовал индексы по разному ставить и использовать USE INDEX, не помогает
EXPLAIN UPDATE `url` SET `proxy_id` = '6' WHERE `proxy_id` IS NULL AND `parsed` = '0' LIMIT 1;

id select_type table type possible_keys key key_len ref rows Extra 1 SIMPLE urls index_merge parsed,proxy_id,parsed_2,proxy_id_2 parsed,proxy_id 1,5 NULL <b>2269200</b> Using intersect(parsed,proxy_id); Using where; Using buffer

индексы ставил на proxy_id и parsed по отдельности, а также составные в разном порядке на эти же поля, результата не дало
Написано более трёх лет назад
Ипатьев @ipatiev

вообще странно, он должен по идее быстро и без индекса находить. а если сделать составной индекс (proxy_id, parsed)?

Написано более трёх лет назад
Иван Иванов @romalu Автор вопроса

Ипатьев, делал, оптимизатор mysql все равно использует не составные индексы. Когда принудительно использую составной, rows в explain вместо 2000 000 показывает 4000 000

Написано более трёх лет назад
Ипатьев @ipatiev

Надо призывать Akina

Написано более трёх лет назад
Akina @Akina

Иван Иванов,
оптимизатор mysql все равно использует не составные индексы

Оптимизатор вообще-то не дурак. И индексы с низкой селективностью использовать не будет.

rows в explain вместо 2000 000 показывает 4000 000

Ну он же делает интерсект ДВУХ индексов, и в каждом по 2кк записей - сколько записей всего?

индексы ставил на proxy_id и parsed по отдельности, а также составные в разном порядке на эти же поля, результата не дало

Нужен композитный индекс по (proxy_id, parsed, datetime_added) и ORDER BY datetime_added в запросе. Тогда индекс должен использоваться - причём весьма эффективно.

PS. А откуда взялись proxy и proxy_id? я как-то в вопросе их не наблюдаю.

Написано более трёх лет назад
Иван Иванов @romalu Автор вопроса
Akina,
сколько записей всего?

~ 9000 000.

Нужен композитный индекс по (proxy_id, parsed, datetime_added) и ORDER BY datetime_added в запросе. Тогда индекс должен использоваться - причём весьма эффективно.

Пробовал составной индекс по (id, proxy_id, parsed) и ORDER BY id - не помогло. Попробую еще ваш вариант.

proxy_id появились в таблице после предложения Ипатьев
Прокси хранятся в таблице proxies, у каждого свой id.

Запрос

UPDATE `url` SET `proxy_id` = '6' WHERE `proxy_id` IS NULL AND `parsed` = '0' LIMIT 1;

Выполняется чуть меньше секунды (0,7 сек, примерно). При одновременном запуске 40 воркеров всё ок (таймаут между перезапуском воркера где-то секунд 30). При попытке запустить 200 воркеров - в show process list вываливается куча запросов update аналогично вышеприведенному и висят секунд по 30.
Написано более трёх лет назад

Комментировать

2 комментария

Иван Иванов @romalu Автор вопроса

Не понял, какое хеширование? Подозреваю, что в этом случае количество урлов на каждый прокси распределится неравномерно? Даже если равномерно, то какой-то прокси может быть более медленным, например, и тогда он свои урлы будет еще долго парсить, когда другие прокси уже закончили парсить свои урлы, и могли бы помочь этому медленному прокси?
Или же какой-то прокси сдохнет, или несколько, и придется добавлять новые прокси, уже будет другое количество прокси. Подозреваю, что данный способ для этой ситуации не подходит.

Написано более трёх лет назад
mayton2019 @mayton2019

Иван Иванов, тогда кидай urls в очередь и пускай их прокси выбирают оттуда по принципу кто первый свободен.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Средний
При подключении к бд MySQL через SSH из Python появляется ошибка, а через DBeaver всё чётко. В чём дело?
- 2 подписчика
- 29 сент.
- 292 просмотра
1

ответ
MySQL

Простой
MySQL JSON_OBJECT Приводит значение к строковому типу, возможно ли это как то обойти?
- 2 подписчика
- 26 сент.
- 117 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как исправить ошибку «No connection could be made because the target machine actively refused it»?
- 2 подписчика
- 02 сент.
- 258 просмотров
1

ответ
MySQL

Простой
Почему у некоторых таблиц Update_time равен null?
- 1 подписчик
- 20 авг.
- 123 просмотра
2

ответа
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- 1 подписчик
- 16 авг.
- 171 просмотр
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 186 просмотров
1

ответ
MySQL

Простой
Как свзять столбцы по внешнему ключу?
- 1 подписчик
- 06 авг.
- 127 просмотров
1

ответ
MySQL

Простой
Как подсчитать количество строк в sql запросе?
- 1 подписчик
- 05 авг.
- 255 просмотров
1

ответ
PHP

+2 ещё

Средний
Как одновременно сделать две записи в разных таблицах в Laravel?
- 1 подписчик
- 27 июл.
- 291 просмотр
1

ответ
JavaScript

+3 ещё

Простой
Почему при отправке HTML-формы данные не поступают в mysql?
- 1 подписчик
- 25 июл.
- 318 просмотров
1

ответ
Показать ещё Загружается…

Системный администратор Linux

Abc staff • Москва

До 250 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 350 000 ₽

Answer 1 · 2022-08-24 20:58:01

Никакие транзакции тут не нужны. транзакции вообще не про это. Почему-то новички упорно путают транзакции с блокировками. Транзакция - это про целостность данных. А чтобы два процесса не считали одну строку - это блокировка.
Но явные блокировки тут тоже не нужны.

Сначала забираем запись на себя
update urls set proxy=proxy_id where done=null and proxy=null limit 1
потом уже её селектим, работаем, и в конце отпускаем
select * from urls where proxy=proxy_id
...
Update urls set proxy=null, done=1 where proxy=proxy_id

Answer 2 · 2022-08-25 07:17:26

parsed - 0 - страница еще не спаршена, 1 - страница спаршена.

Не так.

NULL - не парсилась.
0 - парсинг выполнен.
>0 - взято на парсинг соединением (функция CONNECTION_ID()) номер N.

Соответственно попробовать зарезервировать запись на парсинг:

UPDATE urls 
SET parsed = CONNECTION_ID()
WHERE parsed IS NULL
ORDER BY datetime_added LIMIT 1;

Получить зарезервированную запись и начать её парсинг:

SELECT *
FROM urls
WHERE parsed = CONNECTION_ID();

Если вернётся более одной записи - в системе большие проблемы, надо звать администратора задачи. Если пустой набор - значит, запись перехватили, пробуем резервировать заново (тоже, кстати, повод позвать админа задачи - так не должно быть). Иначе - парсим полученную запись.

По окончании парсинга соответственно

UPDATE urls 
SET parsed = 0
WHERE parsed = CONNECTION_ID();

Ну и периодически выполняется event procedure, который находит записи, формально помеченные как обрабатываемые, но, судя по времени, обработчик подвис. Такие записи возвращаются на обработку

CREATE EVENT clear_parsing_flag
ON SCHEDULE EVERY 1 MINUTE
DO
UPDATE urls
SET parsed = NULL
WHERE parsed > 0
    -- считаем, что 5 минут более чем достаточно
  AND datetime_start_parsed < CURRENT_TIMESTAMP - INTERVAL 5 MINUTE;

Само собой никаких пулов соединений, никаких открыть-закрыть - все операции выполняются в рамках одного persistent connection. Автовосстановление соединения при обрыве также запрещено.

Если соединение развалилось, неважно по какой причине, бросаем обрабатываемую запись (шедулер вернёт её в необработанные), соединяемся заново и начинаем с самого начала, с резервирования.

Ну и предусмотреть случай, когда записей на парсинг просто нет. Например, если 5 резервирований подряд не смогли получить запись на обработку, то, чтобы не ставить сервер раком, вводим между попытками резервирования задержку, например, на 5 секунд... ну и вываливаем баннер, что, походу, парсить нечего.

Answer 3 · 2022-08-24 21:00:45

Select потом Update - работать не будет. Потому что никто не помешает другому потоку выбрать ровно тоже запись пока делается update первым потоком. Для избежания такого есть блокировки.

Answer 4 · 2022-08-24 21:02:48

Для мультипоточных систем самый лучший дизайн concurrency - это уменьшение concurrency. Есть разные способы уменьшения этого. Простое правило - это хеширование. Вычисляем хеш от урла. И берем остаток от деления на количество workers. Число в результате - сообщит нам номер воркера который будет эти линки обрабатывать. Другие воркеры будут чужие линки игнорировать.

Как раздавать уникальные записи таблицы во многопоточном парсере?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт