Какое ПО может посчитать количество страниц PDF документов в папке?

Question

Sakirima @Sakirima

Какое ПО может посчитать количество страниц PDF документов в папке?

Нужна программа для анализа PDF-документов в папке (включая подпапки)

Отдел, занимающийся обработкой почтовых запросов, ищет решение для автоматизации учета PDF-файлов.

Требования к программе:
- Принимает на вход путь к папке (с учетом вложенных подпапок).
- Анализирует все PDF-файлы внутри.
- Формирует отчет в Excel (.xlsx) или другом табличном/текстовом формате.
- В отчете должны быть указаны:
- Имя файла
- Размер файла (не обязательно)
- Количество страниц
Дополнительно:
Если есть готовые решения (бесплатные и желательно официальные без ограничений по эксплуатации) — буду благодарен за рекомендации.
Если нет подходящего ПО, интересуют гайды по написанию такой утилиты на Python или C++ (желательно с примером кода).

Вопрос задан более года назад
590 просмотров

4 комментария

Подписаться 1 Простой 4 комментария

Wispik @Wispik

На питоне это легко пишется. Алгоритм если, гугл в руки и вперед

Написано более года назад
mayton2019 @mayton2019

Учитывая что у тебя вызвает страх такое простое ТЗ, C++ брать наверное будет смертельно опасно.

Бери Python. И такие простые задачи хорошо решаются AI чатами.

Написано более года назад
Василий Банников @vabka

Кажется, будто такую шляпу даже нейросетка напишет.

UPD: да, действительно напишет и оно даже работает

Написано более года назад
alexalexes @alexalexes

Можно даже питон не использовать.
Поставить Ghostscript и использовать связку Ghostscript + батник/powershell.
Я частенько GS-ом pdf-ки обрабатываю, очень удобная штука для командной строки.

Написано более года назад

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программное обеспечение и интернет-сервисы

+3 ещё

Простой
Можно ли таким образом подключить камеру видеонаблюдения?
- 2 подписчика
- вчера
- 273 просмотра
2

ответа
Программное обеспечение и интернет-сервисы

+1 ещё

Простой
Как настроить прилипание Raft к модели в Prusa Slicer/Creality Print?
- 1 подписчик
- 16 июл.
- 31 просмотр
1

ответ
Тестирование ПО

+1 ещё

Простой
Уходить из тестирования или есть смысл поиска работы в 2026 году? С учетом, что мануал?
- 1 подписчик
- 16 июн.
- 335 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 554 просмотра
2

ответа
Автоматизация

Средний
Добавление Distr в образ Windows?
- 2 подписчика
- 26 мая
- 356 просмотров
2

ответа
Android

+2 ещё

Простой
Какая программа подходит для озвучки текста на андроиде?
- 3 подписчика
- 17 мая
- 461 просмотр
2

ответа
Программное обеспечение и интернет-сервисы

Простой
ФЗ №149 как быть?
- 2 подписчика
- 12 мая
- 676 просмотров
1

ответ
Компьютерные сети

+1 ещё

Простой
Не работают стримы на твич, что делать?
- 1 подписчик
- 10 мая
- 937 просмотров
1

ответ
Программное обеспечение и интернет-сервисы

Простой
Какие есть сервисы для «вытягивания» слов из аудио и видео файлов?
- 1 подписчик
- 04 мая
- 220 просмотров
3

ответа
Программное обеспечение и интернет-сервисы

+1 ещё

Простой
Какое программное обеспечение для этого надо использовать для передачи файлов с чувствительными данными?
- 1 подписчик
- 03 мая
- 347 просмотров
4

ответа
Показать ещё Загружается…

На питоне это легко пишется. Алгоритм если, гугл в руки и вперед
Учитывая что у тебя вызвает страх такое простое ТЗ, C++ брать наверное будет смертельно опасно.

Бери Python. И такие простые задачи хорошо решаются AI чатами.
Кажется, будто такую шляпу даже нейросетка напишет.

UPD: да, действительно напишет и оно даже работает
Можно даже питон не использовать.
Поставить Ghostscript и использовать связку Ghostscript + батник/powershell.
Я частенько GS-ом pdf-ки обрабатываю, очень удобная штука для командной строки.

Answer 1 · 2025-04-28 10:52:04

Ужасно глупо звучит, но такое "решение для организации учёта PDF-документов" умещается в 100 строк на питоне и его даже нейросеть может реализовать:

#!/usr/bin/env python3
"""
pdf_report.py

This script recursively scans a given directory for PDF files and generates a report
listing each PDF's file path, size (in bytes), and page count. The report is printed
as a table to stdout, and can optionally be saved as an XLSX file.

Usage:
    python pdf_report.py /path/to/folder [--xlsx output.xlsx]

Dependencies:
    - PyPDF2
    - tabulate
    - openpyxl

Install dependencies:
    pip install PyPDF2 tabulate openpyxl
"""
import os
import argparse
from PyPDF2 import PdfReader
from tabulate import tabulate
from openpyxl import Workbook

def get_pdf_info(path):
    """
    Given a PDF file path, returns a tuple (size_in_bytes, page_count).
    """
    try:
        size = os.path.getsize(path)
        reader = PdfReader(path)
        pages = len(reader.pages)
        return size, pages
    except Exception:
        # If unreadable or corrupted, return None values
        return None, None

def scan_directory(root_dir):
    """
    Walks through root_dir recursively, finds all .pdf files,
    and collects their path, size, and page count.
    Returns a list of dicts.
    """
    report = []
    for dirpath, _, filenames in os.walk(root_dir):
        for filename in filenames:
            if filename.lower().endswith('.pdf'):
                full_path = os.path.join(dirpath, filename)
                size, pages = get_pdf_info(full_path)
                report.append({
                    'path': full_path,
                    'size_bytes': size,
                    'page_count': pages
                })
    return report

def print_report(report):
    """
    Prints the report as a formatted table to stdout.
    """
    headers = ['File Path', 'Size (bytes)', 'Pages']
    rows = [(item['path'], item['size_bytes'], item['page_count']) for item in report]
    print(tabulate(rows, headers=headers, tablefmt='github'))

def save_xlsx(report, xlsx_path):
    """
    Saves the report to an XLSX file at xlsx_path.
    """
    wb = Workbook()
    ws = wb.active
    ws.title = "PDF Report"

    # Write header
    ws.append(['File Path', 'Size (bytes)', 'Pages'])

    # Write data rows
    for item in report:
        ws.append([item['path'], item['size_bytes'], item['page_count']])

    wb.save(xlsx_path)

def main():
    parser = argparse.ArgumentParser(description='Generate a PDF report for a directory.')
    parser.add_argument('directory', help='Path to the directory to scan')
    parser.add_argument('--xlsx', dest='xlsx_output', help='Optional XLSX output path')
    args = parser.parse_args()

    report = scan_directory(args.directory)

    if args.xlsx_output:
        save_xlsx(report, args.xlsx_output)
        print(f"Report saved to XLSX: {args.xlsx_output}")
    else:
        print_report(report)

if __name__ == '__main__':
    main()

А если нужен гайд, то берите любую книжку по программированию на Python и учитесь)

Answer 2 · 2025-04-28 12:02:52

Количество страниц в PDF:
pdfinfo "file.pdf" | grep Pages | awk '{print $2}'
Обвязка с find и вывод в csv - элементарно.
Ни один питон не пострадает.

Answer 3 · 2025-04-28 16:15:05

xotkot @xotkot

хорошо есть и хорошо весьма

exiftool -j -r -all -ext pdf * |jq -r '"NAME;SIZE;PAGES", (.[] | "\(.FileName);\(.FileSize);\(.PageCount)")'

Ответ написан более года назад

Комментировать

Какое ПО может посчитать количество страниц PDF документов в папке?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт