@SAMzz

Как сделать автоматический грабинг страниц сайта с сохранением информации в таблицу или базу данных?

Подскажите чем и как можно сохранить информацию со страниц сайта (текст, ссылки) ?

В чем проблема ?
через браузер все открывается (предпочтительней IE 10,11)
часть сайта на пароле и из-за этого, когда пытаешься качать разными программами сохранялщиками сайтов- ничего не выходит. Скачивается начальная страница вместо нужных.
страниц много - вручную сохранять или копировать - очень долго

желательно все разложить по полочкам - допустим в виде Excel таблицы или csv файла с табуляцией - каждый блок информации в свою ячейку/столбец. новую страницу в новую строку

адрес страниц отличается в одну цифру (т.е. надо сделать перебор номеров с автоподстановкой цифр в диапазоне от и до - чтобы можно было указывать или загружать из файла txt например где будут ссылки и программа, скрипт их будут перебирать)

Например:
загрузилась страница - сохранилась информация, +1 к номеру страницы в адресе - следующая страница открывается-сохранилась информация, следующая страница +1 к номеру и так далее

или в 2 этапа делать ?
сначала выкачать на компьютер страницы HTML (пока не получилось из-за пароля/логина)
чем можно автоматизировать процесс сохранения таких страниц например на компьютер ?
и чем потом HTML код парсить, чтобы вытащить нужные данные ?

или можно сразу "на лету" считывать с страницы (по ссылке) данные в таблицу Excel, какую-то базу, файл

может быть просто с экрана считывать информацию и сохранять без промежуточных манипуляций сохранения в HTML+обработка
  • Вопрос задан
  • 132 просмотра
Пригласить эксперта
Ответы на вопрос 2
Stalker_RED
@Stalker_RED
Обычно эти "программами сохранялщиками сайтов" имеют механизм авторизации.

Можно разбирать на лету, можно сперва все скачать, потом парсить. Особой разницы нет.
Ответ написан
@SAMzz Автор вопроса
в том то и дело, что в разных качалках результат один - скачивается страница авторизации
а страницы необходимые нет
что-то не дает
какие идеи ?

или может пойти другим путем ? есть варианты из браузера быстро перебирать страницы +1 к номеру страницы и сохранять на локальный диск ?
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы