Задать вопрос
trudogolik
@trudogolik
саморазвитие, личностный рост

Как вытянуть данные из html кода, используя регулярные выражения в notepad++?

Здравствуйте коллеги!
Необходимо вытянуть данные из html-кода. Строк на самом деле много, но в пример я приведу всего пару строк.
Код:
<p class="pic"><a href="/film/stalnoy-alkhimik-2009-452838/sr/1/" class="js-serp-metrika" data-url="/film/stalnoy-alkhimik-2009-452838/" data-id="452838" data-type="series"><img class='flap_img' src="https://st.kp.yandex.net/images/spacer.gif"  title="/images/sm_film/452838.jpg" alt="Стальной алхимик" title="Стальной алхимик" /></a></p>
<p class="pic"><a href="/film/inicial-di-1998-230874/sr/1/" class="js-serp-metrika" data-url="/film/inicial-di-1998-230874/" data-id="230874" data-type="series"><img class='flap_img' src="https://st.kp.yandex.net/images/spacer.gif"  title="/images/sm_film/230874.jpg" alt="Инициал &laquo;Ди&raquo;" title="Инициал &laquo;Ди&raquo;" /></a></p>


Конечные данные, которые нужно получить:
Стальной алхимик 2009
Инициал Ди 1998

То есть, необходимо вытащить данные из атрибута alt или title и число года из ссылки .
Буду очень благодарен за помощь!
  • Вопрос задан
  • 342 просмотра
Подписаться 1 Простой Комментировать
Решения вопроса 1
yarhosting
@yarhosting
Заказывайте программинг: PHP,SQL, JS,jQuery,Joomla
Заменить
^.*?-(\d\d\d\d)-.*?alt="(.*?)".*?$
на
\2 \1

Далее при желании заменить спецсимволы (типа "laquo") на нужные.
Плагины-> HTML tag -> Decode entities

Если плагина нет - установить зная название
Плагины-> Plugin manager
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
@id2669099
мне кажется, notepad++ не очень для подобных ситуаций, думаю, проще взять какой-нибудь язык, где есть библиотека с парсингом html и с её помощью вытянуть атрибуты.
Года по идее можно подобной регуляркой вытянуть:
-[1-9][0-9]{3}-
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы