Задать вопрос

26info @26info

парсинг

Парсинг

Какими инструментами можно сохранять конкретные страницы сайтов (свой веб-архив)?

Для собственных (а может и нет) нужд сделал сервис закладок www.relater.ru и к нему хочу прикрутить возможность сохранить конкретную страницу на которую делается закладка (на случай, если конечная страница будет недоступна).

Первое, что пришло в голову, это тупо wget'ом скачивать страницу, ну а дальше уже с ней работать (или оставлять как есть в архиве).

... но в идеале хочется сделать сохранение страницы как в фейсбуке или вконтакте (именно текст статьи), но не представляю как "выдерать" контент со страницы (текст статьи) и исключать мусор (шапка, футер, элементы меню).

Вопрос задан более трёх лет назад
2759 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Python-разработчик PRO

12 месяцев

Далее
Stepik

Парсинг на Python для начинающих

2 недели

Далее
OTUS

iOS Developer

12 месяцев

Далее

Решения вопроса 1

26info @26info Автор вопроса

Решение найдено — https://github.com/feelinglucky/php-readability , на что в немалой степени повлиял ответ @MonkAlbino

Ответ написан более трёх лет назад

Комментировать

Комментировать

Пригласить эксперта

Ответы на вопрос 2

MonkAlbino

Michael Danilov @MonkAlbino

Фронтенд разработчик

What algorithm does Readability use for extracting... на английском SO.
Как это сделано парсинг ста... на Хабре от Mail.ru

Ответ написан более трёх лет назад

2 комментария

2 комментария

Александр @covorp

Как сохранить html-страницу c помощью php в формат .rtf для последующей печати?

Ответ написан более трёх лет назад

1 комментарий

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 190 просмотров
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 422 просмотра
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 366 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 193 просмотра
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 267 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 206 просмотров
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 207 просмотров
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 297 просмотров
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 138 просмотров
1

ответ
Python

+2 ещё

Средний
Как правильно принимать платежи пользователей в сети Tron?
- 1 подписчик
- 03 сент.
- 230 просмотров
3

ответа
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Екатеринбург

от 127 500 ₽

Разработчик JavaScript/NodeJS, специалист технической поддержки

A-Parser

от 600 до 800 $

Инженер по инцидентам информационной безопасности

SMALL

от 3 400 до 4 700 $