Как спарсить pdf файлы с сайта?

Question

hitachi @hitahi

Сори пока что Ламер

Как спарсить pdf файлы с сайта?

Все доброго, есть вопрос. Как спарсить pdf в моём случии книги с сайта - https://codernet.ru/media/
Желательно по шагово (новичок)
пробую на питоне, кто знает как
помогите плиз
зарание спасибо =)

Вопрос задан более двух лет назад
1458 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Решения вопроса 2

6 комментариев

alexbprofit @alexbprofit

ему через питон нужно

Написано более двух лет назад
hitachi @hitahi Автор вопроса

получилось спасибо.
1. а как мне их теперь скачать на пк?
2. при переходе по одной из них выходит 404, так и должно быть ?
3. это с помощью js был парсинг ? (я просто пока в этом только 0 )

Написано более двух лет назад
zkrvndm @zkrvndm

hitachi, да, это JavaScript. Для того, чтобы скачать все файлы разом и одним архивом надо будет добавить пару абзацев кода ещё. Чуть позже приведу пример.

Написано более двух лет назад

zkrvndm @zkrvndm

hitachi, держи:

Развернуть код

// Подключаем библиотеку для создания zip-архивов:

script = document.createElement('script');
script.src = 'https://cdn.jsdelivr.net/npm/jszip/dist/jszip.min.js';
document.head.appendChild(script);

// Выжидаем 3 сек, чтобы библиотека успела загрузится:
await new Promise(function(s) { setTimeout(s, 3000); });

zip = new JSZip(); // Создаем пустой zip-архив

// Получаем список всех ссылок со страницы:

links = document.querySelectorAll('a[href]');

// Перебираем найденные ссылки в цикле:

for (n = 0; n < links.length; n++) {
	
	// Если ссылка ведет на текущий сайт (внутренняя):
	
	if (new URL(links[n].href)['host'] == location.host) {
		
		try {
			
			// Скачиваем html-код по этой ссылке:
			
			html = await (await fetch(links[n].href)).text();
			
			// Парсим этот html-код:
			
			doc = new DOMParser().parseFromString(html, 'text/html');
			
			// Ищем в спарсеном коде все pdf-ки:
			
			pdfs = doc.querySelectorAll('a[href$=".pdf"]');
			
			console.log(' ' + links[n].innerText);
			
			// Перебираем найденные pdf-ки в цикле:
			
			for (i = 0; i < pdfs.length; i++) {
				
				try {
					
					console.log('⭳ ' + pdfs[i].innerText);
					
					// Скачиваем pdf-файл:
					blob = await (await fetch(pdfs[i].href.replace(location.href, links[n].href))).blob();
					
					// Если это pdf:
					
					if (/pdf$/i.test(blob.type)) {
						
						// Добавляем pdf в архив:
						zip.file(pdfs[i].innerText, blob);
						
						console.log('✔ ' + pdfs[i].innerText);
						
					}
					
				} catch(err) {
					
					console.error(err);
					
				}
				
			}
			
		} catch(err) {
			
			console.error(err);
			
		}
		
	}
	
}

// Генерируем архив:

console.log('Идет генерации архива...');
file = await zip.generateAsync({ type: 'blob' }, function(metadata) {
    console.log('Генерация архива: ' + metadata.percent.toFixed(2) + ' %');
});

// Скачиваем архив:

link = document.createElement('a');
link.download = 'Архив.zip';
link.href = URL.createObjectURL(file);

link.click();

После скачивания всех файлов под конец начнется генерация zip-архива, этот процесс может длится очень долго, особенно если слабый комп, нужно набраться терпения, не закрывать вкладку - дождаться, когда вылезет окошко скачивания файла (zip-архива).

Написано более двух лет назад

hitachi @hitahi Автор вопроса

Спасибо большое, идет загрузка, позже напишу результат.
Может знаешь или есть сылки на курсы или книги что бы js изучить
посоветуйте как лучше учить и откуда, зараниее спасибо

дополняю: все получилось работает

Написано более двух лет назад
zkrvndm @zkrvndm

hitachi, самый популярный учебник:
https://learn.javascript.ru

Написано более двух лет назад

3 комментария

hitachi @hitahi Автор вопроса

Спасибо, получилось. Блогодоря вам узнал что такое wget.
Правда скачался пдф в папки с ненунжными индаксами и фотками.
может знаете как можно из всех папок в которых лежит пдф перекинуть в одну папку используя cmd, я просто думаю что это возможно но пока не знаю как. еще раз спасибо

Написано более двух лет назад
shurshur @shurshur
hitachi, не знаю как лучше в cmd, в Linux сработает просто:

mv codernet.ru/media/*/*.pdf another/new/directory/

Но это при условии, что там не будет повторяющихся имён файлов (в принципе, mv -i будет спрашивать перед перезаписью), ну и отдельные pdf лежат чуть глубже уровнем вложенности, их отдельно можно вытащить. Но в целом мне кажется совсем не страшным, если будет по каталогам раскидано.
Написано более двух лет назад
shurshur @shurshur
hitachi, до кучи, можно

find -name 'index.html*' -delete find -name '*.jpg' -delete

(но find настоящий, из UNIX, в DOS/Win есть find, который делает совсем другое)
Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как пройти авторизацию на youtube с помощью selenium(python)?
- 1 подписчик
- 3 часа назад
- 17 просмотров
1

ответ
Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 2 подписчика
- 12 часов назад
- 113 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как скачать pdf из встроенного просмотрщика на сайте?
- 1 подписчик
- 12 часов назад
- 111 просмотров
1

ответ
Python

Простой
Как в библиотеке Flet при нажатии на кнопку сделать, чтобы появилось всплывающее окно?
- 1 подписчик
- 12 часов назад
- 21 просмотр
0

ответов
Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- 14 часов назад
- 22 просмотра
0

ответов
Python

Простой
Как в конце каждой строки файла добавить тэг?
- 1 подписчик
- вчера
- 121 просмотр
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- вчера
- 91 просмотр
1

ответ
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- 22 апр.
- 202 просмотра
1

ответ
Python

Простой
Почему не срабатывает if? как это пофиксить?
- 1 подписчик
- 22 апр.
- 150 просмотров
2

ответа
Python

+2 ещё

Простой
Как транслировать аудио в микрофон, py, c#, c++?
- 1 подписчик
- 22 апр.
- 171 просмотр
3

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Ошибка в 1с при выгрузке товаров на сайт на Битриксе

25 апр. 2024, в 03:08

3000 руб./за проект

Создание и публикация короткого (reels) UGC-видео на YouTube-канале

25 апр. 2024, в 01:46

500 руб./за проект

Настроить перехват https-трафика для android-приложения

25 апр. 2024, в 01:02

10000 руб./за проект

Answer 1 · 2022-04-02 09:53:47

Это делается элементарно, через консоль браузера. Зайдите на эту страницу:
https://codernet.ru/media

Нажмите, комбинацию CTRL + SHIFT + J и в открывшейся консоли введите:

// Получаем список всех ссылок со страницы:

links = document.querySelectorAll('a[href]');

// Перебираем найденные ссылки в цикле:

for (var n = 0; n < links.length; n++) {
	
	// Если ссылка ведет на текущий сайт (внутренняя):
	
	if (new URL(links[n].href)['host'] == location.host) {
		
		// Скачиваем html-код по этой ссылке:
		
		html = await (await fetch(links[n].href)).text();
		
		// Парсим этот html-код:
		
		doc = new DOMParser().parseFromString(html, 'text/html');
		
		// Ищем в спарсеном коде все pdf-ки:
		
		pdfs = doc.querySelectorAll('a[href$=".pdf"]');
		
		// Перебираем найденные pdf-ки в цикле:
		
		for (var i = 0; i < pdfs.length; i++) {
			
			// Выводим ссылку в консоли:
			console.log(pdfs[i].href);
			
		}
		
	}
	
}

Answer 2 · 2022-04-02 15:18:04

Вообще говоря, в данном случае скачать совсем не проблема безо всяких скриптов, достаточно wget:

wget -r -np https://codernet.ru/media/

Answer 3 · 2022-04-02 10:41:22

alexbprofit @alexbprofit

Junior SE

используй селениум для этой цели.
подсказка: искать нужные элементы можно через xpath

Ответ написан более двух лет назад

1 комментарий

Answer 4 · 2022-04-02 10:45:38

Если просто скачать файлы из директорий, то проще wget
Если именно спарсить и именно на питоне, то нужны модули requests и bs4 ( beautifulsoup, bs ) см инструкции к ним.

link='https://codernet.ru/media/'
r1=requests.get(link) #создаётся объект request с содержимым, полученным в ответ от сервера. Сам по себе он не текст странички 
r2=r1.content.decode('utf-8') #декодируется содержимое,  r2 это уже текст
soup1=bs.find_all ('a') #парсер beautifulsoup ищет все теги <a> где стоят ссылки

после этого посмотреть, какие ссылки - абсолютные или относительные, если относительные, добавить к ним вышестояющую часть пути и снова сделать реквест и уже по ссылкам получить имена файлов (относительные) и скачать те из них, что pdf

f1= open ('путь", 'wb')
r1 = requests.get('link1') 
f1.write(r1.content)  
f1.close()

Как спарсить pdf файлы с сайта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт