Может ли быть на сайте что то вроде защиты от парсинга?

Question

Иван @Djonson86

Нечем похвастаться.

Go

Может ли быть на сайте что то вроде защиты от парсинга?

Надо на Golang спарсить сайт. Все делаю по старой схеме, но почему то после http.Get нет всего содержимого сайта, в частности того что мне надо. Пишу в файл для изучения структуры. На сайте содержимое открывается сразу по ссылке, без нажатия каких либо кнопок. В инспекторе в браузере есть все. Пробовал делать выборку по селекторам - не берет. В чем может быть дело и как с этим бороться?

res, err := http.Get(Url)
	if err != nil {
		log15.Error("getting response body with error", log15.Ctx{
			"url": Url,
			"err": err,
		})
		return
	}
	defer res.Body.Close()

	// Create output file
	outFile, err := os.Create("res.html")
	if err != nil {
	log.Fatal(err)
	}
	defer outFile.Close()
	
	// Copy data from HTTP response to file
	_, err = io.Copy(outFile, res.Body)
	if err != nil {
	log.Fatal(err)
	}

Вопрос задан более двух лет назад
128 просмотров

6 комментариев

Подписаться 1 Простой 6 комментариев

Евгений @udjin123

Так может там Javascript отрисовывает контент.

Написано более двух лет назад
Иван @Djonson86 Автор вопроса

Евгений, Какие могут быть варианты решения в подобной ситуации? Сделал уже пару парсеров, но с таким не сталкивался.

Написано более двух лет назад
Евгений @udjin123

ну если это так, то смотрите вкладку Networks в хроме откуда javascript тащит данные, ну и потом повторяйте это в Go

Написано более двух лет назад
Иван @Djonson86 Автор вопроса

Евгений, В Сеть нет явных ссылок откуда оно тянет. Как хотя бы узнать в чем проблема?

Написано более двух лет назад
Евгений @udjin123

В хроме в режиме разработчика смотрите как ведёт себя сайт и повторяте. Заголовки типы запросов и т.д. Точнее ни кто не скажет, не видя что за сайт и какие данные нужны.

Написано более двух лет назад
Иван @Djonson86 Автор вопроса

Евгений, Ок. Спасибо и за это. Буду пробовать chromedp как то прикрутить

Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Go

Сложный
Как устранить утечку памяти при множественных соединениях в net/http Golang?
- 1 подписчик
- 20 минут назад
- 6 просмотров
0

ответов
Go

Сложный
Как двигать фиксированный курсор в игре чтобы получить эффект движения мышью?
- 1 подписчик
- 13 часов назад
- 43 просмотра
0

ответов
Go

Простой
Что означает запись [4]byte в языке Go?
- 1 подписчик
- 22 апр.
- 150 просмотров
3

ответа
Go

Простой
В стандартной библиотеке go есть ли инструменты для работы с многомерными срезами/массивами?
- 1 подписчик
- 18 апр.
- 135 просмотров
2

ответа
Go

Сложный
Как распарсить строку в структуру Go?
- 2 подписчика
- 06 апр.
- 326 просмотров
1

ответ
Go

Средний
Как записать в выходной канал элемент из буфера и разблокировать исходный канал с помощью pause (задача)?
- 1 подписчик
- 04 апр.
- 66 просмотров
1

ответ
Go

Средний
Почему я получаю ошибку invalid operation: err (variable of type Error) is not an interface при проверке типа переменной?
- 1 подписчик
- 03 апр.
- 115 просмотров
2

ответа
Go

Простой
Как исправить ошибку «panic close of closed channel»?
- 1 подписчик
- 01 апр.
- 78 просмотров
0

ответов
Go

+1 ещё

Простой
Как запустить код на golang в vscode?
- 1 подписчик
- 31 мар.
- 140 просмотров
1

ответ
Go

Простой
Насколько актуальна книга Марка Саммерфильда?
- 1 подписчик
- 29 мар.
- 127 просмотров
2

ответа
Показать ещё Загружается…

Go Developer

Media Nation • Москва

от 300 000 ₽

Go разработчик

СберТех • Москва

До 370 000 ₽

Go Team Lead

Випсервис • Москва

от 500 000 ₽

Повысить оригинальность работы с 14% до 70%

25 апр. 2024, в 23:14

1600 руб./за проект

Доработать приложение - интегрировать виджет TODOs

25 апр. 2024, в 22:44

5000 руб./за проект

Доделать проект - расширение для Whatsapp (Chrome)

25 апр. 2024, в 22:33

15000 руб./за проект

Так может там Javascript отрисовывает контент.
Евгений, Какие могут быть варианты решения в подобной ситуации? Сделал уже пару парсеров, но с таким не сталкивался.
ну если это так, то смотрите вкладку Networks в хроме откуда javascript тащит данные, ну и потом повторяйте это в Go
Евгений, В Сеть нет явных ссылок откуда оно тянет. Как хотя бы узнать в чем проблема?
В хроме в режиме разработчика смотрите как ведёт себя сайт и повторяте. Заголовки типы запросов и т.д. Точнее ни кто не скажет, не видя что за сайт и какие данные нужны.
Евгений, Ок. Спасибо и за это. Буду пробовать chromedp как то прикрутить

Answer 1 · 2021-04-30 20:59:06

vgrabkowot @vgrabkowot

Вместо использования http.Get используйте Chrome DevTools Protocol https://github.com/chromedp/chromedp

Ответ написан более двух лет назад

Комментировать

Answer 2 · 2021-05-20 23:17:05

ttlscr @ttlscr

Попробуйте в браузере отключить JS и и перейти по ссылке ¯\_(ツ)_/¯

Ответ написан более двух лет назад

Комментировать

Может ли быть на сайте что то вроде защиты от парсинга?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт