Как-то решил спарсить один новостной сайт, но не получилось, так как на этом сайте устанавливаются и проверяются куки с помощью js. Соответственно бот не может принять куки, которые устанавливаются средствами javascript и сайт просто не отдает страницу.
Вопрос: как поисковые боты индексируют такие сайты?
Илья Белобородов: Эта страница доступна без авторизации, она отлично читается роботом и ее отображение не зависит от кукисов, а если есть зависящие части, то они не будут индексироваться.
Максим Тимофеев: то что страница доступна без авторизации и она отлично читается роботом - я знаю. Но как вы определили, что отображение не зависит от кукисов? На глаз? Я целый парсер писал, и при парсинге меня посылали на юг из-за того, что у меня нужных куков небыло, при том, что куки парсер подставлял, чуть позже, я выяснил, что куки устанавливаются сайтом на стороне клиента