Как сделать автоматический грабинг страниц сайта с сохранением информации в таблицу или базу данных?
Подскажите чем и как можно сохранить информацию со страниц сайта (текст, ссылки) ?
В чем проблема ?
через браузер все открывается (предпочтительней IE 10,11)
часть сайта на пароле и из-за этого, когда пытаешься качать разными программами сохранялщиками сайтов- ничего не выходит. Скачивается начальная страница вместо нужных.
страниц много - вручную сохранять или копировать - очень долго
желательно все разложить по полочкам - допустим в виде Excel таблицы или csv файла с табуляцией - каждый блок информации в свою ячейку/столбец. новую страницу в новую строку
адрес страниц отличается в одну цифру (т.е. надо сделать перебор номеров с автоподстановкой цифр в диапазоне от и до - чтобы можно было указывать или загружать из файла txt например где будут ссылки и программа, скрипт их будут перебирать)
Например:
загрузилась страница - сохранилась информация, +1 к номеру страницы в адресе - следующая страница открывается-сохранилась информация, следующая страница +1 к номеру и так далее
или в 2 этапа делать ?
сначала выкачать на компьютер страницы HTML (пока не получилось из-за пароля/логина)
чем можно автоматизировать процесс сохранения таких страниц например на компьютер ?
и чем потом HTML код парсить, чтобы вытащить нужные данные ?
или можно сразу "на лету" считывать с страницы (по ссылке) данные в таблицу Excel, какую-то базу, файл
может быть просто с экрана считывать информацию и сохранять без промежуточных манипуляций сохранения в HTML+обработка
teleport пробовали?
wget с ключами авторизации?
автокликер не вариант использовать?
Как вариант пройтись по основных страницах сайта и link graberom (плагин для хрома) стянуть ссылки, а уже эти ссылки запихнуть в скрипт который будет открывать допустим 100 вкладок в браузере, которые затем ручками через хоткеи сохранять - костыльно да - но это если очень срочно нужно и мало времени искать лазейки)).
Парсить да хоть скриптом на bash можно(cat + grep + awk ), можно готовой приблудой смотря, что вытащить нужно.
в том то и дело что при попытках что-то скачать, даже введя логин и пароль
скачивается только страница авторизации
что-то отслеживается и не дает пройти дальше, скачать
уже и качалки разные пробовались и браузером разным притворяться, но...