@VirusesAnalystCoder

Регулярные выражения. Как вытащить текст из сайта?

Ну не могу я понять как эти регулярные выражения устроены!
В общем есть такой текст на сатйе:
<span>Оператор:</span> 	*оператор*	</div>
<div class="***"><span>Регион:</span>  *регион*</div>

Нужно вытащить регион и оператор!
Как это сделать? Пожалуйста, скиньте нужные регулярные выражения.
Если скинете код - то прокомментируйте, ибо я не могу нормально понять как это всё вытащить...
  • Вопрос задан
  • 105 просмотров
Решения вопроса 2
@oleg_ods
Регулярные выражения не предназначены для парсинга html. Попробуйте использовать специализированные инструменты. Например, почитайте про библиотеку AngleSharp.
Ответ написан
@Denchik_DV
Для оператора: (?<=Оператор:</span>).*(?=</div>)
Для региона (то же самое): (?<=Регион:</span>).*(?=</div>).

А так можно и в сторону HtmlAgilityPack посмотреть для задач парсинга.
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
qant
@qant
programer
Там есть код и комментарии
https://www.geeksforgeeks.org/what-is-regular-expr...

тут можно тестить регех regexstorm.net/tester
тут примеры regexstorm.net/reference

Изучите примеры и попробуйте скомпоновать то что вам нужно, как вариант если прям совсем туго, то тупо удалите ненужное через поиск и замена на пусто в строке что бы искать только в тексте а не в html разметке.

public static string StripHTML(string input)
{
   return Regex.Replace(input, "<.*?>", String.Empty);
}
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
03 дек. 2020, в 01:59
100000 руб./за проект
03 дек. 2020, в 01:39
100000 руб./за проект
03 дек. 2020, в 01:10
200000 руб./за проект