Как собрать все ссылки на сайте, php?

Question

Кирилл Горелов @Kirill-Gorelov

С ума с IT

PHP

Как собрать все ссылки на сайте, php?

Ребят. Как собрать все ссылки, которые есть на сайте, а так же файлы, картинки и другие?
Регуряное выражение уже написал.
А вот как это собрать с каждой странице, у меня не получается. Потому что надо учесть что бы не было дубликатов и что бы по каждой ссылке парсер прошелся одни раз.
Тут надо скорее всего рекурсивно проходить? Если да, то я что-то запутался в этой рекурсии.
Может уже кто готовое знает или уже кто писал на php?

ВОт что я пробовал написать:
getURL() - функция, которая скачивает файл. Я ее не стал сюда вписывать.

$arr_link = array();
function get_first_link($site){
  $result = getURL($site); 
    $result = implode($result);
    if($result === false){continue;}
    
    preg_match_all("/<[Aa][\s]{1}[^>]*[Hh][Rr][Ee][Ff][^=]*=[ '\"\s]*([^ \"'>\s#]+)[^>]*>/", $result, $matches);
  $urls = $matches[1]; 
   $urls  = array_unique($urls);
  foreach($urls as $val){
    //  echo $val."<br />";  // вывожу все ссылки
    $link = parse_url($val);
    if(empty($link['host'])){
    //   $flag =  in_array($val, $arr_link); 
      //  if($flag === false){
        $arr_link[] = SITE.$val;
      //  echo SITE.$val."<br />";
       // }
       //get_link($site.$val);
    }
  }
  return $arr_link;
}

function get_second_link($arr){
    foreach ($arr as $val) {
          $result = getURL($val); 
    $result = implode($result);
//print_r($result);
 preg_match_all("/<[Aa][\s]{1}[^>]*[Hh][Rr][Ee][Ff][^=]*=[ '\"\s]*([^ \"'>\s#]+)[^>]*>/", $result, $matches);
  $all[] = $matches[1];
    }
    
    $urls = $all; 
   $urls  = array_unique($urls);
   print_r($urls);

}
// print_r(get_first_link(SITE));
$n = get_first_link(SITE);
get_second_link($n);

Вопрос задан более трёх лет назад
2002 просмотра

1 комментарий

Подписаться 2 Оценить 1 комментарий

Denis Skripchenko @dskripchenko

/**
 * Date: 05.05.17
 * Time: 17:42
 */

namespace app\components;

/**
 * Class UrlGrabberService
 * @package app\components
 */
class UrlGrabberService
{
    public $newLink = [];
    public $savedLink = [];
    public $siteUrl = false;

    /**
     * @return static
     */
    public static function getInstance(){
        return new  static();
    }

    /**
     * @param $url
     * @return array
     */
    public function getAllLinkBySite($url){
        $this->newLink = $this->getAllLinkByUrl($url);
        while(!empty($this->newLink)){
            $link = array_shift($this->newLink);
            $this->savedLink[] = $link;
            $this->addLinkByUrl($link);
        }
        return $this->savedLink;
    }

    /**
     * @param $url
     * @return array
     */
    protected function getAllLinkByUrl($url){
        $pattern = '/<a[\s\W]*?href\S*?=\S*?[\'"](\/\w.*?)\/?[\'"]/';
        $headers = @get_headers($url);
        if(strpos($headers[0],'200')===false){
            $result = [];
        }
        else{
            $opts = array('https'=>array('header' => "User-Agent:MyAgent/1.0\r\n"));
            $context = stream_context_create($opts);
            $content = \file_get_contents($url,false,$context);
            $matches = [];
            preg_match_all($pattern,$content,$matches);
            $result = array_unique($matches[1]);
        }
        return $result;
    }

    /**
     * @param $url
     */
    protected function addLinkByUrl($url){
        $this->newLink = array_merge($this->newLink,$this->getAllLinkByUrl($this->siteUrl . $url));
        $this->newLink = array_unique($this->newLink);
        $this->newLink = array_diff($this->newLink, $this->savedLink);
    }
}

$result = UrlGrabberService::getInstance()->getAllLinkBySite('http://example.com');

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 2 подписчика
- 14 нояб.
- 261 просмотр
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 202 просмотра
4

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 183 просмотра
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 298 просмотров
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 278 просмотров
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 149 просмотров
1

ответ
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 321 просмотр
0

ответов
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 372 просмотра
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 302 просмотра
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 291 просмотр
4

ответа
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

Backend PHP developer

Office-Expert.kz

от 200 000 до 290 000 ₽

/** * Date: 05.05.17 * Time: 17:42 */ namespace app\components; /** * Class UrlGrabberService * @package app\components */ class UrlGrabberService { public $newLink = []; public $savedLink = []; public $siteUrl = false; /** * @return static */ public static function getInstance(){ return new static(); } /** * @param $url * @return array */ public function getAllLinkBySite($url){ $this->newLink = $this->getAllLinkByUrl($url); while(!empty($this->newLink)){ $link = array_shift($this->newLink); $this->savedLink[] = $link; $this->addLinkByUrl($link); } return $this->savedLink; } /** * @param $url * @return array */ protected function getAllLinkByUrl($url){ $pattern = '/<a[\s\W]*?href\S*?=\S*?[\'"](\/\w.*?)\/?[\'"]/'; $headers = @get_headers($url); if(strpos($headers[0],'200')===false){ $result = []; } else{ $opts = array('https'=>array('header' => "User-Agent:MyAgent/1.0\r\n")); $context = stream_context_create($opts); $content = \file_get_contents($url,false,$context); $matches = []; preg_match_all($pattern,$content,$matches); $result = array_unique($matches[1]); } return $result; } /** * @param $url */ protected function addLinkByUrl($url){ $this->newLink = array_merge($this->newLink,$this->getAllLinkByUrl($this->siteUrl . $url)); $this->newLink = array_unique($this->newLink); $this->newLink = array_diff($this->newLink, $this->savedLink); } }

$result = UrlGrabberService::getInstance()->getAllLinkBySite('http://example.com');

Answer 1 · 2017-05-05 16:58:43

Вот этот парсер использовал, легко переписать и изменить шаблон с xml на нужный тебе. Достаточно быстро прогуливается по сайту, собирает ссылки и редиректы поддерживает. Рекурсия как-раз.

https://www.plop.at/en/xml-sitemap.html
https://github.com/iprodev/PHP-XML-Sitemap-Generator (вроде как модифицированная версия)

Как собрать все ссылки на сайте, php?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт