Парсинг тестов из формата PDF с правильным ответом, как реализовать на Python?

Question

anarsuper1 @anarsuper1

Парсинг тестов из формата PDF с правильным ответом, как реализовать на Python?

Я студент и сессию я сдаю в виде тестов. В тесте 700 вопросов из которых попадаются лишь 50 случайных и в каждом вопросе по 5 вариантов ответов, где правильным является лишь 1. Тесты мне даются в формате PDF, далее вставлю картинки в каком формате. Правильный ответ отмечен галочкой. Я хочу сделать так, чтобы на рандом генерировалось 50 случайных вопросов из этих тестов. Как сделать случайную генерацию я знаю, как парсить веб сайты я тоже знаю, меня останавливает лишь тот факт что это pdf формат, и как с ним работать тем более в python я не имею никакого понятия, никакие библиотеки я тоже не знаю, но думаю с этим я разберусь. Если Вам не сложно, у вас я бы хотел спросить, какие библиотеки и вариации решения этой задачи можете посоветовать? Как это реализовать? На вопрос "Возможно ли это вообще?" Я сразу отвечу "Да", т.к. у нас есть отдельный сервис который даёт доступ к этим вопросам, но за символическую стоимость. Как реализовали это они, я не знаю и они этого не скажут. Но это 100% сделано не копи-пастом, а ботом. Заранее спасибо за любой отклик.

Вопрос задан более двух лет назад
343 просмотра

1 комментарий

Подписаться 1 Средний 1 комментарий

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программное обеспечение и интернет-сервисы

+2 ещё

Простой
Какое ПО может посчитать количество страниц PDF документов в папке?
- 1 подписчик
- 28 апр.
- 230 просмотров
3

ответа
SQL

+2 ещё

Простой
Как внести большое количество данных из Excel и pdf файла в БД?
- 1 подписчик
- 23 апр.
- 220 просмотров
3

ответа
PHP

+1 ещё

Средний
Как получить дерево категорий в PHP Simple HTML DOM Parser?
- 1 подписчик
- 12 апр.
- 76 просмотров
0

ответов
Программное обеспечение и интернет-сервисы

+2 ещё

Простой
Есть ли простой способ правильно напечатать pdf в виде книжки, если у него по две страницы на листе?
- 2 подписчика
- 10 апр.
- 258 просмотров
2

ответа
Python

+2 ещё

Простой
Как парсить динамическую таблицу с помощью selenium?
- 2 подписчика
- 09 апр.
- 161 просмотр
0

ответов
Python

+2 ещё

Простой
Как сделать, чтобы при парсинге bs4 как то надо нажать на кнопку «показать еще», чтобы подгрузило еще 20 постов?
- 1 подписчик
- 08 апр.
- 168 просмотров
2

ответа
Парсинг

+1 ещё

Простой
У меня не получается спарсить ссылку на фото с сайта, help?
- 1 подписчик
- 07 апр.
- 190 просмотров
2

ответа
Windows

+3 ещё

Простой
Как вытащить иконку pdf-файлов из MS Edge?
- 1 подписчик
- 31 мар.
- 165 просмотров
3

ответа
HTML

+2 ещё

Простой
Как просмотреть скрытый sitemap.xml?
- 1 подписчик
- 27 мар.
- 184 просмотра
3

ответа
Парсинг

Простой
Как получить значение атрибута в PHP Simple HTML DOM Parser?
- 1 подписчик
- 23 мар.
- 49 просмотров
1

ответ
Показать ещё Загружается…

Инженер-программист 1С (УТ)

Фармакопейка • Омск

от 200 000 ₽

Наставник педагогов / HR-менеджер

CODDY

До 45 000 ₽

Senior Frontend (JavaScript) разработчик

Vital Partners

от 350 000 до 400 000 ₽

PyPDF, pdfplumber, pdfminer - либы.
Разные либы - https://stackoverflow.com/questions/55767511/how-t...
извлечете текст, распарсите регулярками:
То что начинается с цифры с точкой - вопрос,
то что начинается с галки ✔ ответ,
то что начинается с точки • вариант ответа

Answer 1 · 2023-02-20 01:43:17

Есть ощущение, что галочки и точечки - это просто символы соответствующего шрифта, а не графика.
Так что даже простой pdftotext может дать материал, пригодный для обработки.
А то и - страшно сказать - тупое копирование всего текста из программы, в которой вы просматриваете эту PDF.

P.S. Дебильность теста доставляет, конечно... "На какой ноге болел палец у Добчинского", классика.

Парсинг тестов из формата PDF с правильным ответом, как реализовать на Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт