Дано, пишу парсер на grab:
Текст в html-коде страницы:
<div class=“inner” id=“msg_3218830”><div class=“quoteheader”><div class=“topslice_quote”><a href="http://www.forum.ru/forum/index.php/topic,129548.msg3218815.html#msg3218815“>Цитата: Nikitos_B от <strong>Сегодня</strong> в 01:04:06</a></div></div><blockquote class=”bbc_standard_quote“>Сразу скажу-в микроконтроллерах не силен <img src=”http://www.forum/forum/Smileys/kolobok/angry.gif“ alt=”>:(“ title=”Angry“ class=”smiley“ /><br /> И нужно ли, главное? <img src=”http://www.astronomy.ru/forum/Smileys/kolobok/smiley.gif“ alt=”:)“ title=”Smiley“ class=”smiley“ /><br /></blockquote><div class=”quotefooter“><div class=”botslice_quote“></div></div>Не нужно.</div>
1. Нужно извлечь отдельно
<blockquote class=”bbc_standard_quote“>Сразу скажу-в микроконтроллерах не силен <img src=”http://www.forum.ru/forum/Smileys/kolobok/angry.gif“ alt=”>:(“ title=”Angry“ class=”smiley“ /><br /> И нужно ли, главное? <img src=”http://www.forum.ru/forum/Smileys/kolobok/smiley.gif“ alt=”:)“ title=”Smiley“ class=”smiley“ /><br /></blockquote>
2. И отдельно извлечь:
</div>Не нужно.</div>
3. Лишний код удалить и произвести замену кода в извлеченных частях:
<blockquote class=”bbc_standard_quote“> на [quote]
</blockquote> на [/quote]
<img src=” на [img]
“ alt=” на [/img]
4. В итоге должно получится так:
[quote]Сразу скажу-в микроконтроллерах не силен
[img]
http://www.forum.ru/forum/Smileys/kolobok/angry.gi... нужно ли, главное? [img]
http://www.forum.ru/forum/Smileys/kolobok/smiley.g...
Не нужно.
Подскажите пожалуйста, как это сделать грамотно, потому что у меня пока получается только так:
“Сразу скажу-в микроконтроллерах не силенИ нужно ли, главное?”
Тобишь голый текст получается без вставки/замены своего текста(тегов).