Задать вопрос
@DerTY72

Необходимо разработать модель классификации, поможете с выбором парадигмы решения задачи?

У меня стоит задача, состоящая в том, что необходимо разработать программу, которая будет выполнять следующие функции: поступает на вход программы WORD файл, содержащий в себе текст анкеты, а на выходе должен быть текстовый файл конфигурации анкеты. Конфигурация анкеты состоит из четырех цифр: 1) номер вопроса 2) тип вопроса (с одним ответом (1) или множественными вариантами ответов (n)) 3) цифра первого варианта ответа 4) цифра последнего варианта ответа.
Например:
1 1 1 5
2 7 10 16
3 1 20 24
4 1 30 34
5 1 40 45
6.1 1 50 54
6.2 1 60 64
6.3 1 70 74
6.4 1 80 84
7 1 90 95
8 1 100 105
9 1 110 114
10 1 120 121
11 1 130 135
12 1 140 144
13 1 150 154
14 1 160 164
15 9 170 178
16 1 180 184
17 1 190 194
18 1 200 205
19 1 210 211
20 1 220 222
21 1 230 234
22 1 240 245
23 1 250 253
24 1 260 265
25 1 500 501
26 1 505 508
27 1 510 515
28 1 520 521
29 1 525 543
30 1 550 555
6-ой вопрос - табличный вопрос, в котором каждая строка это подвопрос 6.1, 6.2, 6.3 и тд
69722919ad8ef598279855.png
69722939ba6f6907117417.png
69722998308cd352482667.png
Ранее я делал модель, основанную на случайном лесе и она очень успешно справлялась с классификацией вопросов на 1 и n на тестовой выборке данных. Данные для теста на вход модели поступали идеальные и результат был соответствующий или около того, но когда я внедрил модель в основную программу, конфигурационные файлы были "неудовлетворительные", результат был откровенно фиговый из-за того, что составители анкет - люди, а люди подвержены человеческому фактору и в самих анкетах попадаются ошибки (лишний пробел, иногда попадаются вопросы обычные,не табличные, но в них варианты ответов оформлены в таблице со скрытыми границами (не знаю зачем так сделали, может для удобства и красоты) и тд) и парсер на вход модели подаёт мусор и на выходе тоже получается мусор.
Я решил, что стоит перейти к обучению модели на основе компьютерного зрения так как для человека анкеты, с которыми работает программа, выглядят абсолютно обычно и все четыре цифры каждого вопроса определяются однозначно. Механизм работы программы будет следующий: на вход программы будет поступать анкета, далее будут сняты с нее png каждой страницы анкеты и они будут поступать на вход модели и под конец будет получен на выходе txt файл конфигурации анкеты.
Итак, вопрос: какой инструмент выбрать для разметки данных, как разметить анкеты в нем и как быть с вопросами, которые располагаются на нескольких страницах?
  • Вопрос задан
  • 57 просмотров
Подписаться 1 Простой 1 комментарий
Помогут разобраться в теме Все курсы
  • Нетология
    Инженерия машинного обучения
    2 года
    Далее
  • Академия Eduson
    Machine Learning
    7 месяцев
    Далее
  • Skypro
    Нейросети с 0
    9 месяцев
    Далее
Пригласить эксперта
Ответы на вопрос 1
@accountnujen
Вы не описали, по какой причине такой извращённый метод - через Word.

Gemini Canvas (ИИ) по запросу сможет сгенерировать не только сам тест с валидацией, но и генератор теста, в котором вы будете выбирать вопросы, ответы, поля, формат ответа (выпадающий список, checkbox, текстовое поле, radio-кнопки, загрузка файла), валидацию и прочее. В конце он может отдавать сгенерированный HTML файл-теста. Данные будут отправляться к вам на сервер в любом удобном для вас виде. Почему пользователи не могут проходить такой тест?

Решение, на которое вы рассматриваете вызывает у меня недоумение...
Я решил, что стоит перейти к обучению модели на основе компьютерного зрения ... Механизм работы программы будет следующий: на вход программы будет поступать анкета, далее будут сняты с нее png каждой страницы анкеты и они будут поступать на вход модели и под конец будет получен на выходе txt файл конфигурации анкеты.

Где-то рядом находится "решение" - бить пользователей током, которые неправильно заполняют форму.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы