У меня стоит задача, состоящая в том, что необходимо разработать программу, которая будет выполнять следующие функции: поступает на вход программы WORD файл, содержащий в себе текст анкеты, а на выходе должен быть текстовый файл конфигурации анкеты. Конфигурация анкеты состоит из четырех цифр: 1) номер вопроса 2) тип вопроса (с одним ответом (1) или множественными вариантами ответов (n)) 3) цифра первого варианта ответа 4) цифра последнего варианта ответа.
Например:
1 1 1 5
2 7 10 16
3 1 20 24
4 1 30 34
5 1 40 45
6.1 1 50 54
6.2 1 60 64
6.3 1 70 74
6.4 1 80 84
7 1 90 95
8 1 100 105
9 1 110 114
10 1 120 121
11 1 130 135
12 1 140 144
13 1 150 154
14 1 160 164
15 9 170 178
16 1 180 184
17 1 190 194
18 1 200 205
19 1 210 211
20 1 220 222
21 1 230 234
22 1 240 245
23 1 250 253
24 1 260 265
25 1 500 501
26 1 505 508
27 1 510 515
28 1 520 521
29 1 525 543
30 1 550 555
6-ой вопрос - табличный вопрос, в котором каждая строка это подвопрос 6.1, 6.2, 6.3 и тд

Ранее я делал модель, основанную на случайном лесе и она очень успешно справлялась с классификацией вопросов на 1 и n на тестовой выборке данных. Данные для теста на вход модели поступали идеальные и результат был соответствующий или около того, но когда я внедрил модель в основную программу, конфигурационные файлы были "неудовлетворительные", результат был откровенно фиговый из-за того, что составители анкет - люди, а люди подвержены человеческому фактору и в самих анкетах попадаются ошибки (лишний пробел, иногда попадаются вопросы обычные,не табличные, но в них варианты ответов оформлены в таблице со скрытыми границами (не знаю зачем так сделали, может для удобства и красоты) и тд) и парсер на вход модели подаёт мусор и на выходе тоже получается мусор.
Я решил, что стоит перейти к обучению модели на основе компьютерного зрения так как для человека анкеты, с которыми работает программа, выглядят абсолютно обычно и все четыре цифры каждого вопроса определяются однозначно. Механизм работы программы будет следующий: на вход программы будет поступать анкета, далее будут сняты с нее png каждой страницы анкеты и они будут поступать на вход модели и под конец будет получен на выходе txt файл конфигурации анкеты.
Итак, вопрос: какой инструмент выбрать для разметки данных, как разметить анкеты в нем и как быть с вопросами, которые располагаются на нескольких страницах?