Захар Морозов: такое бывает при бесконечном редиректе, возможно необходимо использовать куки для удаленного сервера. И еще возможно проблема с днс, я бы попробовал какой-то другой метод проверки, например с другого сервера файл скачать попробовать. И/или на этом сервере попробовать забрать хтмл страничку.
Дмитрий: так как это в результате 2 массива, достаточно прогнать каждое значение из одного массива на сравнение с элементами из другого, при совпадении имени сравнивать время, и меньшее значение выбирать третий, результирующий массив.
xmoonlight: то есть span, i и p мы к дочерним элементам более не относим? ) ХТМЛ с Вами категорически не согласен ) Ок, это разметочные теги, ну а оформление в ckeditor, когда пихается в дивах картинки и проч. - тоже в мусор?
khipster: не обязательно тайтлы, там же есть какой-то уникальный контент? первые строчки текста описания, название файла, а если файлопомойка - то да - хеши наше все.
xmoonlight: а как же первым пунктом идет - Удаляем все контейнеры, с количеством дочерних элементов превышающих 1 - по этой логике весь пост - в мусорку