ну а ваше решение какое?мое решение описано в моем ответе.
Но что делать, если будет 100, 200 или даже 5000 мегабайт?использовать потоковые парсеры.
Не проще ли контролировать нагрузку запросами с фронта?не проще: мало того, что вы грузите фронт вообще не его задачами, так вы еще и сервер бомбите запросами.
чревато только тем, что в выдаче могут появиться (а могут и нет) левые ссылки.
если вычистили и повторений не будет, то за несколько месяцев все возвращается взад.