Некоторому "пауку" скармливается URL некоторого адреса ресурса, допустим, _http_://www.example.com/blog/2019/mega-article
Кроме всего, потенциально возможны разные варианты URL:
_https_://www.example.com/blog/2019/mega-article
_http_://m.example.com/blog/2019/mega-article
Если в заголовке присутствует
rel=canonical
, то все понятно: просто извлекаем тот URL и все.
А как быть если не указан
rel=canonical
?
Существуют ли другие способы получения канонического URL? А если нужно все равно его получить, то как выкрутиться из положения?
Дополнение:
описание задачи
Есть одна задача, в которой API сервис должен получить url в качестве параметра, а ответом должен вернуть
ID representing the canonical URL of the given url
Загвоздка в том как получить канонический URL если rel=canonical отсутствует. Насколько я понимаю, тогда остается принимать исходный url за канонический. Так?