@soulless-ghost

Как спарсить информацию с сайта, который не размещен на сервере?

У меня есть папка в которой хранятся переписки и фотографии в виде html сайта, но только я могу просматривать этот сайт, потому что он нигде не размещен, я пишу программу которая бы перебирала все эти файлы, считывала код с сайта и если там есть ссылка на фотографию, записывала эту ссылку в файл.
  • Вопрос задан
  • 102 просмотра
Решения вопроса 1
shurshur
@shurshur
Сисадмин, просто сисадмин...
Если сайт лежит в виде статических файлов на диске, то надо просто читать эти файлы с диска вместо запросов с сервера и свободно обрабатывать теми же самыми регулярками, lxml, bs4 и ещё чем душе угодно. Тут даже проще будет - не надо разгадывать капчи, сохранять куки и всё такое.

Конечно, можно поднять локально web-сервер, но это как вызвать команду геодезистов с теодолитом для измерения своей гостиной, хотя лучше было бы просто купить рулетку.
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 3
@jotrib
Наверное поможет библиотека Requests
Ответ написан
SoreMix
@SoreMix Куратор тега Python
yellow
Файл прочитайте
Ответ написан
firedragon
@firedragon
Не джун-мидл-сеньор, а трус-балбес-бывалый.
https://jasonwatmore.com/post/2016/06/22/nodejs-se...
Впрочем в питоне есть и свои сервера
https://codecamp.ru/blog/python-python-http-server/
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
28 мар. 2024, в 18:16
1000 руб./за проект
28 мар. 2024, в 18:15
90000 руб./за проект
28 мар. 2024, в 18:05
5000 руб./за проект