Как улучшить php функцию для получения Title удаленной страницы?

Question

GM2mars @GM2mars

Как улучшить php функцию для получения Title удаленной страницы?

Такой скрипт:

function titleLink($url) {
    //проверяем, если кириллический домен, то конвертируем его
    if (preg_match('/[а-яА-Я]/', $url)) {
      require_once('modules/idna_convert.class.php');
      $convert=new idna_convert();
      $url=$convert->encode($url);
    }
    $title="";
    //получаем удаленную страницу
    @$page=file_get_contents($url); 
    if ($page) {
      //находим и выдираем титул
      if (eregi("<title>(.*)</title>", $page, $out)) {
        $title=$out[1];
       //проверяем кодировку, если windows-1251 то конвертируем в utf-8
        if (mb_check_encoding($title, 'Windows-1251') && !mb_check_encoding($title, 'UTF-8')) {
          $title=iconv("CP1251//IGNORE", "UTF-8", $title);
        }
      }
    }
    return $title;
  }

Результат получаю где-то в 75% запросов. Причем титул бывает не удается получить с самых обычных среднестатистических страницах и даже например, на второй и третьей страницы получил титул, а на четвертой не получил, с одного сайта.
Как можно улучшить работу скрипта, для более успешного парсинга?

Вопрос задан более трёх лет назад
3788 просмотров

1 комментарий

Подписаться 3 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее

Решения вопроса 1

9 комментариев

GM2mars @GM2mars Автор вопроса

Собирал из разных скриптов, что-то сам дописывал, методом проб и ошибок вывел этот скрипт. С кодировкой было много проблем, поэтому собрал солянку.
Не могли бы вы выразить свой ответ в виде готового скрипта (второй части, после получения страницы)?

Написано более трёх лет назад
Push Pull @deadbyelpy

@GM2mars я люблю ленивых программистов, но не настолько. и хоть это не относится ко мне, пишите код сами, замечания вы получили.

Написано более трёх лет назад
GM2mars @GM2mars Автор вопроса

@IceJOKER Спасибо, сегодня потестирую.

Написано более трёх лет назад
IceJOKER @IceJOKER

@GM2mars не за что, я уже сам протестировал )) phpfiddle.org . не .рф домены

Написано более трёх лет назад
GM2mars @GM2mars Автор вопроса

@IceJOKER вспомнил, почему двойную проверку кодировки делал. 'gameland.ru' - ваш вариант не получает титул (мой получает). Думаю "магию с кодировкой" не буду трогать )). Ну это ладно, эта проблема у меня решена и она только для страниц с кодировкой windows-1251. Больше интересует из-за чего иногда не может получить заголовок одного сайта у разных страниц. Я пробовал с хабра парсить разные статьи, где-то выдирает, а где-то нет (О_о)

Написано более трёх лет назад
IceJOKER @IceJOKER

@GM2mars может потому что проверка url неправильная )) то есть ссылка вида habrahabr.ru/алярусскиебуквы.html тоже попадает под регулярку )) сделайте проверку только хоста, а не целой ссылки

Написано более трёх лет назад
GM2mars @GM2mars Автор вопроса

@IceJOKER проверка только хоста. Всё равно спасибо за помощь. Меня больше интересует другой вопрос, сейчас проверял на хабре, первый раз не приходит заголовок статьи, второй раз приходит, третий - может опять не придти. Я думаю надо ограничить чтение страницы только до ''

Написано более трёх лет назад
IceJOKER @IceJOKER

@GM2mars по признакам - на хабре просто запрет по-ходу стоит на множественное обращение.
если обращаетесь к одной странице, то может стоит один раз проверять, а потом в кэш занести?

Написано более трёх лет назад
GM2mars @GM2mars Автор вопроса

@IceJOKER не подходит. Чаще бывает что с первого раза не получает, а со второго получает. Обращался к разным статьям.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 1054 просмотра
6

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 236 просмотров
5

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 142 просмотра
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 218 просмотров
2

ответа
PHP

Средний
Как подключиться к серверу PHP и чтобы отображались исполнители?
- 1 подписчик
- 24 апр.
- 243 просмотра
3

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 312 просмотров
2

ответа
PHP

Простой
Не работает яндекс ссылка прямая?
- 1 подписчик
- 07 апр.
- 212 просмотров
1

ответ
PHP

Простой
Почему слетает сайт при загрузке обработчика?
- 1 подписчик
- 02 апр.
- 236 просмотров
1

ответ
JavaScript

+2 ещё

Средний
Авторизация вконтакте как настроить?
- 2 подписчика
- 26 мар.
- 392 просмотра
1

ответ
PHP

Простой
СТРОКА — где искать ее истоки на сайте?
- 1 подписчик
- 11 мар.
- 389 просмотров
2

ответа
Показать ещё Загружается…

eregi() - устаревшая и не рекомендуется для использования. См. функции preg_xxx().

Answer 1 · 2014-07-23 23:49:52

в одном месте mb_ в другом iconv - может быть стоит все-таки пользоваться mb_?
в одном месте preg_match() в другом eregi, да вы издеваетесь :D
mb_convert_encoding($title, 'utf-8'); //он сам определит кодировку .

preg_match('~(.*?)~iu'); //i-регистронезависимый поиск, u-для utf-8 кодировки

<?php
function getTitle($url) {
    if(!$url) return ;
	$url = 'http://'.parse_url($url, PHP_URL_HOST);
	//проверяем, если кириллический домен, то конвертируем его
    if (preg_match('/[а-яА-Я]/i', $url)) {
      require_once('modules/idna_convert.class.php');
      $convert=new idna_convert();
      $url=$convert->encode($url);
    }
    $title="";
    //получаем удаленную страницу
    @$page=file_get_contents($url); 
    if ($page) {
      //находим и выдираем титул
      if (preg_match("~<title>(.*?)</title>~iu", $page, $out)) {
        $title=$out[1];
       //конвертируем в utf-8
        mb_convert_encoding($title, 'utf8');
      }
    }
    return $title;
  }
echo getTitle('http://toster.ru/q/траляля');

?>

Как улучшить php функцию для получения Title удаленной страницы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт