Как применить регулярное выражение?

Question

Alex Ant @AN_ANT

PHP

Как применить регулярное выражение?

Применяю регулярное выражение для парсинга всех ссылок и картинок в тексте:

(([A-Za-z.-_]+)\.([\/.A-Za-z0-9-_#=&;%+]{0,})\.([\/.A-Za-z0-9-_#=&;%+]{0,}))

Все ссылки, типа таких:

sk.ru/news/b/photos/archive/2016/11/11/vorkshop-po...

Или схожих картинок - парсятся успешно, разбиваются на части, в том числе, на расширения. Все как надо!

Проблема лишь в том, что выражения типа: 'p.s.' тоже за ссылку считаются.. Как их можно исключить?

Вопрос задан более трёх лет назад
98 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

2 комментария

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 114 просмотров
1

ответ
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 214 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 470 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 252 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 197 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 158 просмотров
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2474 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 347 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 189 просмотров
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 252 просмотра
2

ответа
Показать ещё Загружается…

Answer 1 · 2016-12-07 12:28:00

[A-Za-z.-_]+ означает любое коничество символов, состоящее из букв, дефисов, точек и подчеркиваний. т.е. как минимум стоит добавить сюда цифры. сейчас 2gis.ru, к примеру, не распарсится.
ну и можно ввести количество символов после точки, домен классически от 2 до 4 символов. Сделаете "2 и больше" - уже p.s. отбросится.

Answer 2 · 2016-12-07 12:00:57

Самое близкое - перечислить список возможных доменов первого уровня, например так:

([a-zA-Z0-9-]+\.)+(com|net|org|ru|...)

В последние годы дело осложняется популярностью gTLD и nTLD. Вот например, строка "my.coffee" - это домен или пропущенный пробел? Оказывается, его можно зарегистрировать.

Для надежности я бы поступал так - если строка начинается с www, http или имеет слэши, скорее всего это ссылка и там можно использовать любой домен. Если просто строка из двух слов, разделенных точками - то смотреть по ограниченному списку известных доменов первого уровня.

Как применить регулярное выражение?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт