Как методу IndexOf (из фреймворка .NET), объяснить, что внутри скобок метода, между некоторыми HTML-тегами может располагаться любой текст?

Question

Алексей Смирнов @ERAFY

Как методу IndexOf (из фреймворка .NET), объяснить, что внутри скобок метода, между некоторыми HTML-тегами может располагаться любой текст?

Здравствуйте.

Я осуществляю выгрузку данных из HTML-кода некоторой web-страницы. И я реализую это при помощи языка Visual Basic и фреймворка .NET.
Для получения данных из HTML-кода я использую метод IndexOf, причем при его использовании, внутри скобок метода, может встречаться разный HTML-код, либо такой:

i = СТРОКА.IndexOf("<td><strong><a id="iraq" href="некоторая_ссылка">Ирак</a></strong></td>")

либо такой:

i = СТРОКА.IndexOf("<td><strong>Сербия</strong></td>")

Мне необходимо перейти к универсальному использованию метода IndexOf, чтобы этот метод можно было использовать для обоих случаев.

Как методу IndexOf, объяснить, что между тегов <td><strong> и </strong></td> может располагаться любой текст (или HTML-код)?

То есть:

i = СТРОКА.IndexOf("<td><strong> Здесь располагается любой текст или HTML-код </strong></td>")

Вопрос задан более трёх лет назад
227 просмотров

5 комментариев

Подписаться 1 Оценить 5 комментариев

Иван Филатов @NYMEZIDE

Вам же ответили в прошлом вашем вопросе, зачем вы снова задаете тот же самый вопрос?

Написано более трёх лет назад
Алексей Смирнов @ERAFY Автор вопроса

Иван Филатов: Вопрос не тот же самый.
Добавлю, что у меня при помощи связки Substring и IndexOf уже получилось реализовать парсинг.
Также, упомяну, что в конечном итоге я программный код буду использовать для написания макроса в программе STATISTICA, и я не уверен, что HtmlAgilityPack там получиться использовать

Написано более трёх лет назад
Иван Филатов @NYMEZIDE

Алексей Смирнов: если вы пишете уже на .net., то доп.либа на .net погоды не сделает. STATISTICA не должна знать про HtmlAgilityPack. Только ваша либа знает про чудо-парсинг и использует его. И отдает в STATISTICA базовые типы с данными.

парсинг на Substring и IndexOf не пишут - это изврат. Ручной парсинг - это Regex и Xpath. По сути HtmlAgilityPack работает именно так, только имеет много удобных уже реализованных вещей.

не изобретайте велосипед.

Написано более трёх лет назад
Алексей Смирнов @ERAFY Автор вопроса

Спасибо за ответ.
"парсинг на Substring и IndexOf не пишут - это изврат" - значит я извращениями занимался)) На самом деле я такой способ нашёл некой книге (забыл автора уже). И у меня ведь получилось реализовать)))

Написано более трёх лет назад
Иван Филатов @NYMEZIDE

Алексей Смирнов: если бы у вас получилось - то вы бы здесь не спрашивали.
интересно сколько вы времени убили на это дело.

парсинг через либу HtmlAgilityPack пишется за пару часов. причем любой сложности )

самое плохое в программировании - изобретать велосипед, причем с квадратными колесами. учитесь пользоваться уже реализованными решениями, тем более они открыты и для использования, и для изучения исходного кода.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Профессиональная вёрстка на HTML и CSS

3 месяца

Далее
Stepik

Основы HTML и CSS

2 недели

Далее
Бруноям

Вёрстка на HTML и CSS

3 месяца

Далее

Решения вопроса 2

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

HTML

+4 ещё

Простой
Как сделать дизайн + верстку с помощью ИИ?
- 1 подписчик
- 4 минуты назад
- 6 просмотров
0

ответов
Visual Basic

+1 ещё

Простой
VBA как создать контур?
- 2 подписчика
- 16 дек.
- 125 просмотров
0

ответов
Visual Studio

Средний
Не могу подключить базу данных Access к приложению в Visual Studio?
- 3 подписчика
- 12 дек.
- 126 просмотров
0

ответов
JavaScript

+2 ещё

Средний
Как можно реализовать что то вроде селекта внутри родителя у которого есть скрытые элементы и должна быть горизонтальная прокрутка?
- 1 подписчик
- 11 дек.
- 152 просмотра
0

ответов
Excel

+1 ещё

Простой
Как в VBA открыть книгу EXCEL полностью скрытно от пользователя?
- 2 подписчика
- 04 дек.
- 110 просмотров
1

ответ
JavaScript

+2 ещё

Простой
Как сделать резкое переключение слайдов?
- 1 подписчик
- 03 дек.
- 176 просмотров
0

ответов
HTML

+1 ещё

Средний
В какую сторону копать решение чтобы решить проблему с наложением?
- 1 подписчик
- 22 нояб.
- 142 просмотра
0

ответов
HTML

+1 ещё

Простой
Как растянуть вложенный блок внутри других блоков на максимальную длину, но не более чем на ширину страницы?
- 1 подписчик
- 21 нояб.
- 146 просмотров
0

ответов
HTML

+1 ещё

Простой
Как реализовать форму ввода как в веб-версии chatGPT?
- 3 подписчика
- 13 нояб.
- 239 просмотров
0

ответов
C++

+1 ещё

Простой
Почему Project Dependencies не работает?
- 1 подписчик
- 10 нояб.
- 100 просмотров
1

ответ
Показать ещё Загружается…

WordPress (PHP, HTML/CSS) разработчик

Epiic

от 90 000 ₽

Frontend-разработчик (Vanilla JS, high-load media platform)

Karma8

от 200 000 до 300 000 ₽

Frontend разработчик React / Next.js

PurpleSchool

До 65 000 ₽

Вам же ответили в прошлом вашем вопросе, зачем вы снова задаете тот же самый вопрос?
Иван Филатов: Вопрос не тот же самый.
Добавлю, что у меня при помощи связки Substring и IndexOf уже получилось реализовать парсинг.
Также, упомяну, что в конечном итоге я программный код буду использовать для написания макроса в программе STATISTICA, и я не уверен, что HtmlAgilityPack там получиться использовать
Алексей Смирнов: если вы пишете уже на .net., то доп.либа на .net погоды не сделает. STATISTICA не должна знать про HtmlAgilityPack. Только ваша либа знает про чудо-парсинг и использует его. И отдает в STATISTICA базовые типы с данными.

парсинг на Substring и IndexOf не пишут - это изврат. Ручной парсинг - это Regex и Xpath. По сути HtmlAgilityPack работает именно так, только имеет много удобных уже реализованных вещей.

не изобретайте велосипед.
Спасибо за ответ.
"парсинг на Substring и IndexOf не пишут - это изврат" - значит я извращениями занимался)) На самом деле я такой способ нашёл некой книге (забыл автора уже). И у меня ведь получилось реализовать)))
Алексей Смирнов: если бы у вас получилось - то вы бы здесь не спрашивали.
интересно сколько вы времени убили на это дело.

парсинг через либу HtmlAgilityPack пишется за пару часов. причем любой сложности )

самое плохое в программировании - изобретать велосипед, причем с квадратными колесами. учитесь пользоваться уже реализованными решениями, тем более они открыты и для использования, и для изучения исходного кода.

Answer 1 · 2015-12-14 15:46:41

1. не пользуйтесь IndexOf для парсинга страниц
2. или через регулярки тащите данные (не самый простой и надежный способ)
3. или возьмите либу HtmlAgilityPack (https://htmlagilitypack.codeplex.com/) и через Xpath можно вытащить все что угодно.

Answer 2 · 2015-12-14 15:44:55

IndexOf никаким боком не подходит для решения вашей задачи. Для этого есть регулярные выражения и инструменты парсинга HTML. Например HtmlAgilityPack

Как методу IndexOf (из фреймворка .NET), объяснить, что внутри скобок метода, между некоторыми HTML-тегами может располагаться любой текст?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт