Как получить ВСЕ ссылки встречающиеся на сайте с помощью нативного PHP?

Question

Twitt @Twitt

PHP

Как получить ВСЕ ссылки встречающиеся на сайте с помощью нативного PHP?

Есть задача:
дается на вход линк на сайт, скрипт ходит по всем ссылкам, и должен зайти на каждую ссылку получив первый абзац текста. То есть, если мы заходим на новостной сайт, сначала заходим на главную, со временем скрипт заходит на одну из статей, если внутри статьи есть ссылка на другую статью - должны зайти на другую статью, и т.д. Также нужно понять, если ссылка ведет не на этот домен, (а куда то например на инстаграм), то эту ссылку игнорить. Все это с нативным PHP, без библиотек.
Собственно, получить все ссылки с определенной страницы и получать инфу из тех ссылок я смог (юзаю нативный DOMDocument). Но вот ходить постоянно по всем ссылкам - тяжеловато. Их потенциально может быть миллионы, если это новостной сайт. Также не совсем понимаю, как проверять что это ссылка этого домена? Вечно проверять host через parse_url? А если путь без домена в статье?

Вопрос задан более трёх лет назад
91 просмотр

1 комментарий

Подписаться 1 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 344 просмотра
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 227 просмотров
4

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 192 просмотра
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 312 просмотров
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 285 просмотров
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 150 просмотров
1

ответ
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 331 просмотр
0

ответов
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 377 просмотров
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 304 просмотра
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 294 просмотра
4

ответа
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

Backend PHP developer

Office-Expert.kz

от 200 000 до 290 000 ₽

А ещё приколы когда пути относительные и полные.
Когда то подобная мысль посещала, надо было sitemap генерировать. Но что то там у меня не получилось и я забил. Жрало память, как будто я стресс тесты железа гоняю)
P.s.
Ещё там можно поймать рекурсию. Например на постраничной навигации

Answer 1 · 2019-02-15 06:49:58

Но вот ходить постоянно по всем ссылкам - тяжеловато.

Параллель запросы, используя multi_curl. Если этого недостаточно, тогда очередь (например RabbitMQ или попроще Gearman) и обрабатывающие ноды.

Их потенциально может быть миллионы, если это новостной сайт.

Да, может быть. Поэтому тебе надо какая-то таблица, примерно в таком формате
id - int
url - text
url_hash - char(32), unique
parsed - tinyint
в которой будешь хранить все url и их статус парсинга, за уникальность будет отвечать url_hash = md5(url)

Также не совсем понимаю, как проверять что это ссылка этого домена? Вечно проверять host через parse_url? А если путь без домена в статье?

Если путь без домена, то и проверять не надо, ссылка принадлежит этому домену

Как получить ВСЕ ссылки встречающиеся на сайте с помощью нативного PHP?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт