Использую библиотеку curb для скачивания страницы и nokogiri для парсинга. Контент обновляется кнопкой “load more”, поэтому у меня появилась идея парсить текущий url, нажимать на кнопку, парсить новый url и тд пока кнопка не исчезнет. Проблема в том что используемые библиотеки нажимать не умеют, поэтому подскажите пожалуйста инструмент ну или может отличный от моего подход к решению. Спасибо.
Never Ever,
скрипт выглядит так:
url = “http://...” -ссылку вставляю руками
http = Curl.get(url)
...
И если я это зациклю, то парсится будет одна и таже страница. Обьясните пожалуйста поподробнее, что вы имеете ввиду.
raury, Ну смотри, когда мы нажимаем на эту кнопку то скорее всего идет GET запрос, который стучится на сервак, открой инстременты браузера и должен увидеть типо этого https://...../page...=1https://...../page...=2 , https://...../page...=3 и тд. Ну это в лучшем случае будет, если там не будут каких-то приколов. Твоя задача просто генерировать правильный урл.
Чтобы нажимать кнопки нужен браузер, можете попробовать Capybara + PhantomJS. Либо смотрите какие запросы делает AJAX по кнопке и повторяйте до пустого ответа.