Как парсить HTML строку?

Question

Антон @hummingbird

Как парсить HTML строку?

Есть такой HTML код:

<span class="title">Название:</span> Rising Water - James Vincent McMorrow<!-- После слитно еще несколько span -->

Пытаюсь ее парсануть:

puts /<span class="title">Название:<\/span>(.*)-(.*)/.match(line)

Но не выходит. Получаю название и последующие за ним span'ы.

Помогите, пожалуйста.

Вопрос задан более трёх лет назад
385 просмотров

11 комментариев

Подписаться 1 Оценить 11 комментариев

Crash @Bandicoot

не пробовали специальные гемы использовать, например Nokogiri?

Написано более трёх лет назад
Антон @hummingbird Автор вопроса

Crash: и как с помощью Nokogiri получить название? Название ведь ни во что не обернуто.

Написано более трёх лет назад

OVK2015 @OVK2015

var testStr = '<span class="title">Название:</span> Rising Water - James Vincent McMorrow<span>'
testStr.match(/<\/span>(.*?)<span/i)

Написано более трёх лет назад

Антон @hummingbird Автор вопроса

OVK2015: неа, не вышло:
puts /<\/span>(.*?)<span/i.match(line)

Написано более трёх лет назад
OVK2015 @OVK2015

Антон: Это для js. С синтаксисом руби не знаком. Хотя не думаю, что сама регулярка как-то отличается.
У меня 1-ая группа из этой строки "Rising Water - James Vincent McMorrow". Уберите из регулярки "i"(/<\/span>(.*?)

Написано более трёх лет назад
Антон @hummingbird Автор вопроса

OVK2015: тут дело вот в чем:
puts /<\/span>(.*?)<span/i.match(line)[1]
Выводит:


А это:
puts /<\/span>(.*?)<span/i.match(line)[2]
Выводит пустоту.

Написано более трёх лет назад
Антон @hummingbird Автор вопроса

OVK2015: с "i" или без "i" - одинаковая ситуация.

Написано более трёх лет назад
Антон @hummingbird Автор вопроса

OVK2015: без указания индекса выводит:
<span

Написано более трёх лет назад
OVK2015 @OVK2015

Антон:
Как сама исходная строка полностью выглядит?
Мой код легко проверить,- в той же консоле браузера.

Написано более трёх лет назад
Антон @hummingbird Автор вопроса

OVK2015: исходный код, это куча похожих строк (как в примере), только у них меняется класс в span, текст в span, и само название песни меняется на описание, год и прочее подобное.

Написано более трёх лет назад
OVK2015 @OVK2015

Антон: Попробуйте ключ "s" добавить
/<\/span>(.*?)<span/is
Видать он по умолчанию точку точкой считает, а не любым символом

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее
Stepik

Поколение Python: курс для профессионалов

1 неделя

Далее
Хекслет

Java-разработчик

10 месяцев

Далее

Решения вопроса 1

4 комментария

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт. 2025
- 338 просмотров
3

ответа
Регулярные выражения

+1 ещё

Простой
Как убрать все точки из текстового файла с помощью регулярных выражений в Notepad++?
- 1 подписчик
- 03 сент. 2025
- 288 просмотров
1

ответ
Регулярные выражения

+1 ещё

Средний
Почему один регэксп работает, а второй нет?
- 1 подписчик
- 03 сент. 2025
- 314 просмотров
4

ответа
Регулярные выражения

Простой
Как работает ленивость в регулярных выражениях?
- 2 подписчика
- 31 авг. 2025
- 263 просмотра
2

ответа
Регулярные выражения

Простой
Как удалить часть слов?
- 1 подписчик
- более года назад
- 262 просмотра
1

ответ
Регулярные выражения

Простой
Как оставить в строке при помощи регулярки (+еще)?
- 1 подписчик
- более года назад
- 173 просмотра
1

ответ
Linux

+3 ещё

Средний
Как локально установить плагин для vagrant?
- 1 подписчик
- более года назад
- 182 просмотра
0

ответов
PHP

+1 ещё

Простой
Как в PHP найти строку, которая содержит или не содержит символ?
- 1 подписчик
- более года назад
- 279 просмотров
2

ответа
Регулярные выражения

+1 ещё

Средний
Как сделать замену текста по ssh?
- 1 подписчик
- более года назад
- 188 просмотров
0

ответов
ВКонтакте

+1 ещё

Простой
Как с помощью регулярного выражения получить oid и id видео из ссылки?
- 1 подписчик
- более года назад
- 171 просмотр
2

ответа
Показать ещё Загружается…

не пробовали специальные гемы использовать, например Nokogiri?
Crash: и как с помощью Nokogiri получить название? Название ведь ни во что не обернуто.
var testStr = 'Название: Rising Water - James Vincent McMorrow' testStr.match(/<\/span>(.*?)<span/i)
OVK2015: неа, не вышло:
puts /<\/span>(.*?)<span/i.match(line)
Антон: Это для js. С синтаксисом руби не знаком. Хотя не думаю, что сама регулярка как-то отличается.
У меня 1-ая группа из этой строки "Rising Water - James Vincent McMorrow". Уберите из регулярки "i"(/<\/span>(.*?)
OVK2015: тут дело вот в чем:
puts /<\/span>(.*?)<span/i.match(line)[1]
Выводит:


А это:
puts /<\/span>(.*?)<span/i.match(line)[2]
Выводит пустоту.
OVK2015: с "i" или без "i" - одинаковая ситуация.
OVK2015: без указания индекса выводит:
<span
Антон:
Как сама исходная строка полностью выглядит?
Мой код легко проверить,- в той же консоле браузера.
OVK2015: исходный код, это куча похожих строк (как в примере), только у них меняется класс в span, текст в span, и само название песни меняется на описание, год и прочее подобное.
Антон: Попробуйте ключ "s" добавить
/<\/span>(.*?)<span/is
Видать он по умолчанию точку точкой считает, а не любым символом

Answer 1 · 2016-08-19 16:08:47

Парсить регуляркой не стоит, выше упомянутое вполне подойдет, еще рубисты часто используют библиотеку nokogiri для парсинга сайтов.
Она вполне удобна, например тем, что можно добираться до элементов по ccs селекторам.
https://habrahabr.ru/post/52680/
Пример:

doc = Nokogiri::HTML('<body><span class="title">Название:</span> Rising Water - James Vincent McMorrow<span></span><body>')

name = doc.xpath('//span/following-sibling::text()[1]').text

p name # => " Rising Water - James Vincent McMorrow"

Answer 2 · 2016-08-19 15:42:30

HTML НЕ ПАРСЯТ РЕГУЛЯРКАМИ. REGEXP - ИНСТРУМЕНТ НЕДОСТАТОЧНО СЛОЖНЫЙ ДЛЯ ПАРСИНГА HTML.
d͓̀o̰̭̳̭̠̠͢n̠̞̠͉ț̱̤̝ ̣̣̼̫̥̯e̷̥̝v̦e̵̻n̰͕͟ ̵̗̻̪̯t̗̪̯̬͕̺́r͉̰̮̣̬͖y̶͕͍ ̝̩̟̬̟ţ̮o̶̰̭ ̵̣̥̬̯̜̟͓p̴͎̼̜a̝̖̦̫͈̱͖r̝͇̖̟͖̬s̭̭̯͉͎̙͘e҉̠̺̻̻̝ͅ ̣̺̤̱̣i͈̲̭̤͍̼͘t̞͉̺̲̘͚ ̺̞̰̳͔̭o̠̗͙̖̬͇u͠ț͉̘̦̝̪

Как парсить HTML строку?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт