Задать вопрос
@VirusesAnalystCoder

Регулярные выражения. Как вытащить текст из сайта?

Ну не могу я понять как эти регулярные выражения устроены!
В общем есть такой текст на сатйе:
<span>Оператор:</span> 	*оператор*	</div>
<div class="***"><span>Регион:</span>  *регион*</div>

Нужно вытащить регион и оператор!
Как это сделать? Пожалуйста, скиньте нужные регулярные выражения.
Если скинете код - то прокомментируйте, ибо я не могу нормально понять как это всё вытащить...
  • Вопрос задан
  • 128 просмотров
Подписаться 1 Простой Комментировать
Решения вопроса 2
@oleg_ods
Регулярные выражения не предназначены для парсинга html. Попробуйте использовать специализированные инструменты. Например, почитайте про библиотеку AngleSharp.
Ответ написан
Комментировать
@Denchik_DV
Для оператора: (?<=Оператор:</span>).*(?=</div>)
Для региона (то же самое): (?<=Регион:</span>).*(?=</div>).

А так можно и в сторону HtmlAgilityPack посмотреть для задач парсинга.
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 1
qant
@qant
programer
Там есть код и комментарии
https://www.geeksforgeeks.org/what-is-regular-expr...

тут можно тестить регех regexstorm.net/tester
тут примеры regexstorm.net/reference

Изучите примеры и попробуйте скомпоновать то что вам нужно, как вариант если прям совсем туго, то тупо удалите ненужное через поиск и замена на пусто в строке что бы искать только в тексте а не в html разметке.

public static string StripHTML(string input)
{
   return Regex.Replace(input, "<.*?>", String.Empty);
}
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы