Как спарсить этот сайт?

Question

Pogran @Pogran

Как спарсить этот сайт?

Интересуют страницу глав. типо вот такие readmanga.me/sheng_wang/vol1/7 readmanga.me/sheng_wang/vol1/7#page=2 и т.д. Пробовал через simple_html_dom но не парсило нормально, т.к там есть динамический контент, который грузится через время. Затем начал смотреть в сторону slimerjs, но он почему-то после первой страницы не хочет парсить следующие. К примеру на slimer вот такой код

var page = require('webpage').create();
// the urls to navigate to
var urls = [
    'http://phantomjs.org/',
    'https://twitter.com/sidanmor',
    'https://github.com/sidanmor',
    'http://readmanga.me/sheng_wang/vol1/7',
    'http://readmanga.me/sheng_wang/vol1/7#page=2',
    'http://readmanga.me/sheng_wang/vol1/7#page=3'
];

var i = 0;

// the recursion function
var genericCallback = function () {
    return function (status) {
        console.log("URL: " + urls[i]);
        console.log("Status: " + status);
        // exit if there was a problem with the navigation
        if (!status || status === 'fail') slimer.exit();

        i++;

        if (status === "success") {

            /*var images = page.evaluate(function() {
                var images = [];
                function getImgDimensions($i) {
                    return {
                        top : $i.offset().top,
                        left : $i.offset().left,
                        width : $i.width(),
                        height : $i.height()
                    }
                }
                var image = $("#fotocontext img");
                var img = getImgDimensions(image);
                images.push(img);

                return images;
            });

            images.forEach(function(imageObj, index, array){
                page.clipRect = imageObj;
                page.render('images/'+ i +'.png')
            });*/

            if (i < urls.length) {
                // navigate to the next url and the callback is this function (recursion)
                page.open(urls[i], genericCallback());
            } else {
                // try navigate to the next url (it is undefined because it is the last element) so the callback is exit
                page.open(urls[i], function () {
                    slimer.exit();
                });
            }
        }
    };
};

// start from the first url
page.open(urls[i], genericCallback());

после ссылки 'readmanga.me/sheng_wang/vol1/7', парсер не хочет работать

вот такая ошибка падает prntscr.com/dy2oja

Вопрос задан более трёх лет назад
820 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Академия Эдюсон

Fullstack-разработчик на JavaScript + ИИ

11 месяцев

Далее
ProductStar × РБК

Профессия: Инженер по тестированию + ИИ

6 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+1 ещё

Средний
Как выводить изображения в 2 или в 3 колонки в строке в зависимости от пропорций изображений?
- 1 подписчик
- 20 июл.
- 106 просмотров
1

ответ
PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 129 просмотров
1

ответ
JavaScript

+2 ещё

Сложный
Как заставить библиотеку docs js нарисовать бордер при переносе таблицы?
- 2 подписчика
- 10 июл.
- 162 просмотра
1

ответ
JavaScript

+2 ещё

Простой
Как подстраивать размер канваса под размер страницы?
- 1 подписчик
- 01 июл.
- 131 просмотр
0

ответов
JavaScript

+2 ещё

Простой
Не работает тень + слайдер, есть варианты?
- 2 подписчика
- 21 июн.
- 209 просмотров
1

ответ
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 221 просмотр
2

ответа
JavaScript

Средний
Значение переменной в строку или сохранение в VK?
- 1 подписчик
- 10 июн.
- 161 просмотр
2

ответа
JavaScript

+1 ещё

Сложный
Как сделать логику post запроса покупки товара, если 1 товара не хватает — отменить покупку?
- 2 подписчика
- 10 июн.
- 240 просмотров
1

ответ
JavaScript

Средний
Как правильно вывести данные из функции в див?
- 2 подписчика
- 08 июн.
- 189 просмотров
3

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 477 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2017-01-20 17:55:51

Все работает как и должно.
С точки зрения браузера readmanga.me/sheng_wang/vol1/7 и readmanga.me/sheng_wang/vol1/7#page=2 - это один урл, якоря имеют смысл только в браузере.
А ошибка как раз и описана в комменте:
// try navigate to the next url (it is undefined because it is the last element) so the callback is exit
page.open(urls[i], function () {
slimer.exit();
});

сделай просто slimer.exit();

и еще обработчик page.onError не помешал бы
stackoverflow.com/questions/19459247/how-to-ignore...

Как спарсить этот сайт?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт