Как распарсить url?

Question

Владимир Грабко @VGrabko

Golang, Php, Js

Go

Как распарсить url?

В пхп есть замечательные классы для работы с dom. И там я в три строки кода могу получить все значения a href с хтмл документа. Мне необходимо распарсить в ссылки из html файла. Возможно в Go тоже можно сделать это с такой простотой как и в пхп?

Вопрос задан более трёх лет назад
363 просмотра

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Яндекс Практикум

Go-разработчик с нуля

8 месяцев

Далее
Хекслет

GO-разработчик

6 месяцев

Далее

Решения вопроса 2

18 комментариев

Владимир Грабко @VGrabko Автор вопроса

посмотрите код прежде чем людям предлагать.

Написано более трёх лет назад
cijiw @cijiw

Владимир Грабко: я с ней знаком. очень удобная библиотека.

Написано более трёх лет назад
Анатолий @taliban

Владимир Грабко: что с ней не так?

Написано более трёх лет назад
Oleg Shevelev @mantyr

Владимир Грабко: тоже интересно что вас там так задело?:) Я вот хотел к вашему комментарию (golang.org/x/net/html) написать что там адский ад, хотя и вполне корректный:)

Написано более трёх лет назад
Владимир Грабко @VGrabko Автор вопроса

Oleg Shevelev: jquery и в js адское говно а его бинднг к golangy и у меня бомбануло.

Написано более трёх лет назад
cijiw @cijiw

Владимир Грабко: откуда там биндинг к JavaScript, если речь идет о голом HTML?

Написано более трёх лет назад
Oleg Shevelev @mantyr

Владимир Грабко: это не биндинг:) Но пусть будет так, пишите своё - это полезно:)

Написано более трёх лет назад
Владимир Грабко @VGrabko Автор вопроса

Oleg Shevelev: cijiw я имел введу синтаксиса.

Написано более трёх лет назад
Oleg Shevelev @mantyr

Владимир Грабко: напиши свой:) Уверен оно будет таким же страшным как библиотека для связи серверов что у тебя написана, но хоть будет о чём подисскутировать:)

Написано более трёх лет назад
Владимир Грабко @VGrabko Автор вопроса

Oleg Shevelev: канеш ))

Написано более трёх лет назад
Владимир Грабко @VGrabko Автор вопроса

Oleg Shevelev: моими исходниками программисты будут пугать своих детей :D

Написано более трёх лет назад
Oleg Shevelev @mantyr

Владимир Грабко: не будут, зачем им это:) Детей лучше учить хорошему:)

Написано более трёх лет назад
Владимир Грабко @VGrabko Автор вопроса

Oleg Shevelev: )))) Если мой код будет поддерживаться командой кодеров более 5 лет то они точно им будут пугать детей так как не чего страшнее в своей жизни не видели))

Написано более трёх лет назад
Владимир Грабко @VGrabko Автор вопроса

Oleg Shevelev: а если серьёзно то хз почему у меня такой адский говнокод. Вро де и книг по тому как писать чистый код прочитал 10500 и стараюсь со всех сил а один фиг я сам боюсь своего кода.

Написано более трёх лет назад
Oleg Shevelev @mantyr

Владимир Грабко: Вы себе льстите:) У вас не самый ужасный из возможных кодов:) Сколько лет вы программируете на постоянной основе? Если меньше пяти то удивляться нечему. Если вам кажется что мой код хороший или иногда даже идеальный то я вижу что это только начало на пути к действительно красивому, поддерживаемому и надёжному коду. С каждым годом вижу как меняется собственное представление о том как это делать.

Написано более трёх лет назад
Владимир Грабко @VGrabko Автор вопроса

Oleg Shevelev: ну я сознательно программирую примерно года 3

Написано более трёх лет назад
Владимир Грабко @VGrabko Автор вопроса

Oleg Shevelev: вы просто не видели какой код у меня в продакшене. два года назад написал монолит на php и сейчас для каждой фичи делаю пачку новых классов которые подменяют функции "изначальных". Я просто напросто не могу править изначальные классы потому что там такое говно что оно ломает половину проэкта при попытке изменения даже имён переменных (повсюду юзается glob и т.д.)

Написано более трёх лет назад
Владимир Грабко @VGrabko Автор вопроса

Oleg Shevelev: и вы видете с каждым годом я чутли не скаждой неделью. Возможно из-за того что за эту неделю успеваю прочитать тройку небольших книг (до 300ст.). Я вот сейчас полностью с нуля переписываю свою php библиотеку для роботы с микросервисами.

Написано более трёх лет назад

14 комментариев

Анатолий @taliban

Вы предлагаете человеку парсить теги руками? Он ищет готовый парсер

Написано более трёх лет назад
cijiw @cijiw

Анатолий: Это сам автор.

Написано более трёх лет назад
Анатолий @taliban

cijiw: а, я чета не досмотрел :) в любом случае себе он выбрал самый сложный вариант :)

Написано более трёх лет назад
cijiw @cijiw

Анатолий: он любит это.
грит - через тернии к знаниям.

Написано более трёх лет назад
Анатолий @taliban

cijiw: тогда норм, это идеальный вариант

Написано более трёх лет назад
cijiw @cijiw

Анатолий: Вы про то, что через регулярные выражения - это уже перебор по сложности??

Написано более трёх лет назад
Анатолий @taliban

cijiw: там ведь нет регулярных выражений, там го предлагает механизм токенов, он сам говорит где начало/конец тега, остается лишь перебрать весь текст посимвольно и собрать себе дерево хтмл, сохранить все элементы для удобного поиска/перебора и при надобности иметь возможность быстро находить нужные элементы. Это все предстоит сделать самому, есть библиотеки которые это делают за вас.

Написано более трёх лет назад
cijiw @cijiw

Анатолий: по задаче, как я понял, полное дерево не обязательно. вполне достаточно найти теги

Написано более трёх лет назад
cijiw @cijiw

Упс. Сам тег вырезало. А так: вполне достаточно найти теги "< A ... "

Написано более трёх лет назад
Владимир Грабко @VGrabko Автор вопроса

cijiw: вы правы. Только теги.

Написано более трёх лет назад
cijiw @cijiw

Владимир Грабко: строго говоря, эти символы могут оказаться и внутри JS и внутри строк. Поэтому надежнее все-таки полностью распознать теги.

Написано более трёх лет назад

Владимир Грабко @VGrabko Автор вопроса

cijiw:

for i := range url {
		doc, err := html.Parse(strings.NewReader(ParseHtml(url[i])))
		if err != nil {
			log.Fatal(err)
		}
		var f func(*html.Node)
		f = func(n *html.Node) {
			if n.Type == html.ElementNode && n.Data == "a" {
				for _, a := range n.Attr {
					if a.Key == "href" {
						for _, value := range ParseEmail(ParseHtml(a.Val)) {
							_, ok := registryEMAIL[value]
							if !ok {
								registryEMAIL[value] = 0
								fmt.Println(value)
							}
						}
						break
					}
				}
			}
			for c := n.FirstChild; c != nil; c = c.NextSibling {
				f(c)
			}
		}
		f(doc)

	}

Написано более трёх лет назад

cijiw @cijiw

Владимир Грабко: из любопытства посмотрите НАСКОЛЬКО это же будет короче с goquery. Имхо, уложится в 3 строчки.

Написано более трёх лет назад
Анатолий @taliban

cijiw: не, он понимает разницу, жс код будет текстом внутри тега, он даже имена тегов сообщает, умная штука, но уровень парсинга - вот тебе конструктор, сделай сам

Написано более трёх лет назад