Где найти скрипт(парсер/граббер) rss лент?

Question

Станнис Романов @Darrow

Веб дизайнер/разработчик

Где найти скрипт(парсер/граббер) rss лент?

Салют, подскажите пожалуйста скрипт, или движок способный парсить нужный список сайтов и граббить их последние новости, а точнее заголовки и ссылки на них? Что то вроде гугла но проще :).

Если такое пишется индивидуально, тогда пожалуйста подскажите уроки или посоветуйте способы реализации, (Гуглил, но ничего подходящего так и не нашел) спасибо!

Вопрос задан более трёх лет назад
1302 просмотра

Комментировать

Подписаться 4 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 5

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Как сделать правильно скорректировать запрос в RedBeanPHP?
- 1 подписчик
- 10 часов назад
- 58 просмотров
1

ответ
Веб-разработка

+1 ещё

Средний
Что за движок для справочника?
- 1 подписчик
- 11 часов назад
- 158 просмотров
1

ответ
Веб-разработка

+3 ещё

Средний
Какой мини ПК посоветуете для домашнего веб сервера для некоммерческих целей?
- 1 подписчик
- вчера
- 2304 просмотра
14

ответов
Веб-разработка

Средний
Очень долго загружается страница сайта в целом, что делать?
- 1 подписчик
- вчера
- 241 просмотр
2

ответа
PHP

Простой
Как добавить русский текст в fpdf?
- 1 подписчик
- 24 апр.
- 173 просмотра
2

ответа
PHP

+1 ещё

Простой
Где хранить ключи api используемые для тестирования открытого по?
- 1 подписчик
- 23 апр.
- 293 просмотра
2

ответа
Веб-разработка

+1 ещё

Простой
Почему не кэшируются страницы на клиенте?
- 1 подписчик
- 23 апр.
- 138 просмотров
2

ответа
PHP

+1 ещё

Средний
Как удалить весь текст кроме ссылок?
- 1 подписчик
- 20 апр.
- 185 просмотров
3

ответа
JavaScript

+2 ещё

Средний
Почему не получается обратиться к наследуемому свойству (php) через асинхронный запрос?
- 2 подписчика
- 19 апр.
- 1290 просмотров
1

ответ
Веб-разработка

Простой
Как на HTML сделать поиск по сайту?
- 2 подписчика
- 19 апр.
- 1749 просмотров
5

ответов
Показать ещё Загружается…

Middle PHP-developer / PHP-разработчик

Wanted.

До 250 000 ₽

PHP-разработчик

YCLIENTS • Москва

от 250 000 до 350 000 ₽

PHP программист

Mind4.me

от 140 000 ₽

Answer 1 · 2015-10-14 10:17:31

Есть одна поделка, описание можно глянуть здесь
Работающий на ней сайт - здесь
Если заинтересует - пишите, на крайний случай допилим под конкретные нужды или настрою и проинструктирую

Answer 2 · 2015-10-13 20:56:05

frees2 @frees2

dulsky.eu

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2015-10-13 20:56:25

Говнокод из старого проекта

rssparser.class.php

<?php

require_once('parserutils.class.php');

class RSSParser implements Iterator {
    private $position = 0;
    private $rss = []; 

    public function __construct($rss) {
        $this->position = 0;
        $tmp = ParserUtils::normalizeXML($rss->channel);
        if(!empty($tmp['item'])){
        	$this->rss = $tmp['item'];
        }        
    }

    function rewind() {
        $this->position = 0;
    }

    function current() {
    	$c = $this->rss[$this->position];

        return ParserUtils::constructRssItem(
			$c->title,
			$c->link,
			$c->description,
			$c->pubDate
        );
    }

    function key() {
        return $this->position;
    }

    function next() {
        ++$this->position;
    }

    function valid() {
        return isset($this->rss[$this->position]);
    }

    public static function check($rss){
    	return !(empty($rss) || empty($rss->channel) || empty($rss->channel->item));
    }
}
?>

atomparser.class.php

<?php
class AtomParser implements Iterator {
    private $position = 0;
    private $rss = []; 

    public function __construct($rss) {
        $this->position = 0;
        
        $tmp = ParserUtils::normalizeXML($rss);
        if(!empty($tmp['entry'])){
            $this->rss = $tmp['entry'];
        } 
    }

    function rewind() {
        $this->position = 0;
    }

    function current() {
    	$c = $this->rss[$this->position];

    	$lastLink = null;
		foreach ($c->link as $vl) {
			$lastLink = $vl;
			if($vl['type'] == "text/html"){
				break;
			}
		}

        return ParserUtils::constructRssItem(
			$c->title,
			$lastLink["href"],
			$c->content,
			$c->updated
        );
    }

    function key() {
        return $this->position;
    }

    function next() {
        ++$this->position;
    }

    function valid() {
        return isset($this->rss[$this->position]);
    }

    public static function check($rss){
    	return !(empty($rss) || empty($rss->entry));
    }
}
?>

parserutils.class.php

<?php

require_once('RollingCurl.php');

class ParserUtils
{
	final private function __construct() {}
    final private function __clone() {}

    static $curlOpt = [CURLOPT_USERAGENT => "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.52 Safari/537.17"];

	public static function normalizeXML ($xmlObject)
	{
		$res = [];
	    foreach ( (array) $xmlObject as $index => $node ){
	        $res[$index] = ( is_object ( $node ) ) ? self::normalizeXML ( $node ) : $node;
	    }

	    return $res;
	}

	public static function constructRssItem($title, $link, $content, $update){
		$content = preg_replace('/\[crayon-.+\]/U','',trim($content));
		$title = trim(strip_tags($title));
		$update = date('Y-m-d H:i:s',strtotime($update));
		return $res = [
    		'content'=>$content,
    		'update'=>$update,
    		'title'=>$title,
    		'link'=>trim(strip_tags($link))
    	];
	}

	public static function multiDownLoad($urls, $threadCount = 0){
		$result = [];
		if($threadCount <= 0){
			$threadCount = count($urls);
		}
		$rc = new RollingCurl(function($response, $info, $request) use(&$result){
			if( $info["http_code"] == 200 && !empty($response)){
				$result[$request->url] = $response;				
			}
		});
		$rc->window_size = $threadCount;
		foreach ($urls as $url) {
		    $rc->get($url, null, self::$curlOpt);
		}
		$rc->execute();
		return $result;
	}

	public static function download($url){
		$result = null;
		$rc = new RollingCurl(function($response, $info, $request) use(&$result){
			if( $info["http_code"] == 200 && !empty($response)){
				$result = $response;				
			}
		});
		$rc->get($url, null, self::$curlOpt);
		$rc->execute();
		return $result;
	}
}

?>

Использование

public static function getParser($raw_content){

		$rss = simplexml_load_string($raw_content, 'SimpleXMLElement', LIBXML_NOWARNING | LIBXML_NOERROR);

		if(RSSParser::check($rss)){
			return new RSSParser($rss);
		}else if(AtomParser::check($rss)){
			return new AtomParser($rss);
		}else{
			return null;
		}
	}

Answer 4 · 2015-10-14 16:44:26

Влад Животнев @inkvizitor68sl

Linux-сисадмин с 8 летним стажем.

https://wordpress.org/plugins/wp-rss-aggregator/

Ответ написан более трёх лет назад

Комментировать

Answer 5 · 2015-10-13 21:38:35

Если вам нужно просто рсс. То они разбираются как Xml файлы и все. Заголовки и ссылки вы оттуда получите.

Где найти скрипт(парсер/граббер) rss лент?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт