Задать вопрос
@pcdesign

Как очистить микроданные в html?

Есть сотни html страниц в которых содержатся микроданные
https://schema.org/docs/gs.html
Вручную лень все это вычищать, посоветуйте какой-нибудь инструмент, который бы убрал всю микроразметку.

<div itemscope itemtype ="http://schema.org/Movie">
  <h1 itemprop="name">Avatar</h1>
  <span>Director: <span itemprop="director">James Cameron</span> (born August 16, 1954)</span>
  <span itemprop="genre">Science fiction</span>
  <a href="../movies/avatar-theatrical-trailer.html" itemprop="trailer">Trailer</a>
</div>
  • Вопрос задан
  • 179 просмотров
Подписаться 1 Оценить 9 комментариев
Решения вопроса 1
@pcdesign Автор вопроса
#!/usr/bin/perl -w
use strict;
use HTML::Scrubber;
use feature 'say';

my @default = (
    1 => {
        '*'       => 1,
        itemprop  => 0,
        itemscope => 0,
        itemtype  => 0,

    }
);

my $scrubber = HTML::Scrubber->new(
    default => \@default,
    process => 0,
);

my $html = join( '', <DATA> );
say $scrubber->scrub($html);



__DATA__
<div itemscope itemtype ="http://schema.org/Movie">
  <h1 itemprop="name">Avatar</h1>
  <span>Director: <span itemprop="director">James Cameron</span> (born August 16, 1954)</span>
  <span itemprop="genre">Science fiction</span>
  <a href="../movies/avatar-theatrical-trailer.html" itemprop="trailer">Trailer</a>
</div>


Результат:
<div>
  <h1>Avatar</h1>
  <span>Director: <span>James Cameron</span> (born August 16, 1954)</span>
  <span>Science fiction</span>
  <a href="../movies/avatar-theatrical-trailer.html">Trailer</a>
</div>
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы