@anarsuper1

Парсинг тестов из формата PDF с правильным ответом, как реализовать на Python?

Я студент и сессию я сдаю в виде тестов. В тесте 700 вопросов из которых попадаются лишь 50 случайных и в каждом вопросе по 5 вариантов ответов, где правильным является лишь 1. Тесты мне даются в формате PDF, далее вставлю картинки в каком формате. Правильный ответ отмечен галочкой. Я хочу сделать так, чтобы на рандом генерировалось 50 случайных вопросов из этих тестов. Как сделать случайную генерацию я знаю, как парсить веб сайты я тоже знаю, меня останавливает лишь тот факт что это pdf формат, и как с ним работать тем более в python я не имею никакого понятия, никакие библиотеки я тоже не знаю, но думаю с этим я разберусь. Если Вам не сложно, у вас я бы хотел спросить, какие библиотеки и вариации решения этой задачи можете посоветовать? Как это реализовать? На вопрос "Возможно ли это вообще?" Я сразу отвечу "Да", т.к. у нас есть отдельный сервис который даёт доступ к этим вопросам, но за символическую стоимость. Как реализовали это они, я не знаю и они этого не скажут. Но это 100% сделано не копи-пастом, а ботом. Заранее спасибо за любой отклик.
63f29df6431a5535561676.png
  • Вопрос задан
  • 193 просмотра
Пригласить эксперта
Ответы на вопрос 1
Adamos
@Adamos
Есть ощущение, что галочки и точечки - это просто символы соответствующего шрифта, а не графика.
Так что даже простой pdftotext может дать материал, пригодный для обработки.
А то и - страшно сказать - тупое копирование всего текста из программы, в которой вы просматриваете эту PDF.

P.S. Дебильность теста доставляет, конечно... "На какой ноге болел палец у Добчинского", классика.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы