Как методу IndexOf (из фреймворка .NET), объяснить, что внутри скобок метода, между некоторыми HTML-тегами может располагаться любой текст?

Здравствуйте.

Я осуществляю выгрузку данных из HTML-кода некоторой web-страницы. И я реализую это при помощи языка Visual Basic и фреймворка .NET.
Для получения данных из HTML-кода я использую метод IndexOf, причем при его использовании, внутри скобок метода, может встречаться разный HTML-код, либо такой:
i = СТРОКА.IndexOf("<td><strong><a id="iraq" href="некоторая_ссылка">Ирак</a></strong></td>")

либо такой:
i = СТРОКА.IndexOf("<td><strong>Сербия</strong></td>")

Мне необходимо перейти к универсальному использованию метода IndexOf, чтобы этот метод можно было использовать для обоих случаев.

Как методу IndexOf, объяснить, что между тегов <td><strong> и </strong></td> может располагаться любой текст (или HTML-код)?

То есть:
i = СТРОКА.IndexOf("<td><strong> Здесь располагается любой текст или HTML-код </strong></td>")
  • Вопрос задан
  • 226 просмотров
Решения вопроса 2
NYMEZIDE
@NYMEZIDE
резюме - ivanfilatov.ru
1. не пользуйтесь IndexOf для парсинга страниц
2. или через регулярки тащите данные (не самый простой и надежный способ)
3. или возьмите либу HtmlAgilityPack (https://htmlagilitypack.codeplex.com/) и через Xpath можно вытащить все что угодно.
Ответ написан
Комментировать
@dmitryKovalskiy
программист средней руки
IndexOf никаким боком не подходит для решения вашей задачи. Для этого есть регулярные выражения и инструменты парсинга HTML. Например HtmlAgilityPack
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы