Может ли быть на сайте что то вроде защиты от парсинга?

Question

Иван @Djonson86

Нечем похвастаться.

Go

Может ли быть на сайте что то вроде защиты от парсинга?

Надо на Golang спарсить сайт. Все делаю по старой схеме, но почему то после http.Get нет всего содержимого сайта, в частности того что мне надо. Пишу в файл для изучения структуры. На сайте содержимое открывается сразу по ссылке, без нажатия каких либо кнопок. В инспекторе в браузере есть все. Пробовал делать выборку по селекторам - не берет. В чем может быть дело и как с этим бороться?

res, err := http.Get(Url)
	if err != nil {
		log15.Error("getting response body with error", log15.Ctx{
			"url": Url,
			"err": err,
		})
		return
	}
	defer res.Body.Close()

	// Create output file
	outFile, err := os.Create("res.html")
	if err != nil {
	log.Fatal(err)
	}
	defer outFile.Close()
	
	// Copy data from HTTP response to file
	_, err = io.Copy(outFile, res.Body)
	if err != nil {
	log.Fatal(err)
	}

Вопрос задан более трёх лет назад
152 просмотра

6 комментариев

Подписаться 1 Простой 6 комментариев

Евгений @udjin123

Так может там Javascript отрисовывает контент.

Написано более трёх лет назад
Иван @Djonson86 Автор вопроса

Евгений, Какие могут быть варианты решения в подобной ситуации? Сделал уже пару парсеров, но с таким не сталкивался.

Написано более трёх лет назад
Евгений @udjin123

ну если это так, то смотрите вкладку Networks в хроме откуда javascript тащит данные, ну и потом повторяйте это в Go

Написано более трёх лет назад
Иван @Djonson86 Автор вопроса

Евгений, В Сеть нет явных ссылок откуда оно тянет. Как хотя бы узнать в чем проблема?

Написано более трёх лет назад
Евгений @udjin123

В хроме в режиме разработчика смотрите как ведёт себя сайт и повторяте. Заголовки типы запросов и т.д. Точнее ни кто не скажет, не видя что за сайт и какие данные нужны.

Написано более трёх лет назад
Иван @Djonson86 Автор вопроса

Евгений, Ок. Спасибо и за это. Буду пробовать chromedp как то прикрутить

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Go-разработчик с нуля

8 месяцев

Далее
Skillfactory

Профессия Backend-разработчик на Go

12 месяцев

Далее
Хекслет

GO-разработчик

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Go

Простой
Как пропустить поле при конвертации структуры в JSON?
- 1 подписчик
- 15 окт.
- 95 просмотров
0

ответов
Go

Простой
Можно ли получить исходное имя файла до переименования из fsnotify?
- 3 подписчика
- 09 окт.
- 193 просмотра
1

ответ
Go

+1 ещё

Простой
Какой наиболее привычный путь для удаленного хранения настроек линтинга в Go?
- 1 подписчик
- 30 сент.
- 139 просмотров
1

ответ
Go

Простой
GO + FYNE GUI как запустить скрипт после подтверждения в диалоговом окне dialog.ShowConfirm?
- 1 подписчик
- 24 сент.
- 110 просмотров
1

ответ
Go

Простой
GO + FYNE GUI — какой макет — Layout выбрать для desktop приложения? Как сделать сайдбар и контентную часть?
- 2 подписчика
- 22 сент.
- 101 просмотр
1

ответ
Go

Простой
GO fyne serve выдает ошибку?
- 1 подписчик
- 13 сент.
- 103 просмотра
1

ответ
Базы данных

+2 ещё

Средний
Как автоматически откатить в CI/CD миграции при помощи Goose, если их было несколько?
- 3 подписчика
- 04 сент.
- 433 просмотра
1

ответ
React

+2 ещё

Простой
Как корректно загружать изображения с react на бэкенд через graphql?
- 1 подписчик
- 22 авг.
- 151 просмотр
1

ответ
Go

+2 ещё

Простой
Две ошибки только в VC code которые не дают мне писать код?
- 1 подписчик
- 02 авг.
- 438 просмотров
1

ответ
Linux

+1 ещё

Простой
Trace/breakpoint trap (core dumped)?
- 1 подписчик
- 22 июл.
- 399 просмотров
2

ответа
Показать ещё Загружается…

Разработчик PHP/Go

ЭТП ГПБ / VESNA

До 220 000 ₽

Go-разработчик / Backend Developer (Golang)

Karma8

До 500 000 ₽

GoLang разработчик на высоконагруженный проект

TrafficOX

от 2 500 до 4 500 $

Так может там Javascript отрисовывает контент.
Евгений, Какие могут быть варианты решения в подобной ситуации? Сделал уже пару парсеров, но с таким не сталкивался.
ну если это так, то смотрите вкладку Networks в хроме откуда javascript тащит данные, ну и потом повторяйте это в Go
Евгений, В Сеть нет явных ссылок откуда оно тянет. Как хотя бы узнать в чем проблема?
В хроме в режиме разработчика смотрите как ведёт себя сайт и повторяте. Заголовки типы запросов и т.д. Точнее ни кто не скажет, не видя что за сайт и какие данные нужны.
Евгений, Ок. Спасибо и за это. Буду пробовать chromedp как то прикрутить

Answer 1 · 2021-04-30 20:59:06

vgrabkowot @vgrabkowot

Вместо использования http.Get используйте Chrome DevTools Protocol https://github.com/chromedp/chromedp

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2021-05-20 23:17:05

ttlscr @ttlscr

Попробуйте в браузере отключить JS и и перейти по ссылке ¯\_(ツ)_/¯

Ответ написан более трёх лет назад

Комментировать

Может ли быть на сайте что то вроде защиты от парсинга?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт