Необходимо разработать модель классификации, поможете с выбором парадигмы решения задачи?

Question

DerTY72 @DerTY72

Машинное обучение

Необходимо разработать модель классификации, поможете с выбором парадигмы решения задачи?

У меня стоит задача, состоящая в том, что необходимо разработать программу, которая будет выполнять следующие функции: поступает на вход программы WORD файл, содержащий в себе текст анкеты, а на выходе должен быть текстовый файл конфигурации анкеты. Конфигурация анкеты состоит из четырех цифр: 1) номер вопроса 2) тип вопроса (с одним ответом (1) или множественными вариантами ответов (n)) 3) цифра первого варианта ответа 4) цифра последнего варианта ответа.
Например:
1 1 1 5
2 7 10 16
3 1 20 24
4 1 30 34
5 1 40 45
6.1 1 50 54
6.2 1 60 64
6.3 1 70 74
6.4 1 80 84
7 1 90 95
8 1 100 105
9 1 110 114
10 1 120 121
11 1 130 135
12 1 140 144
13 1 150 154
14 1 160 164
15 9 170 178
16 1 180 184
17 1 190 194
18 1 200 205
19 1 210 211
20 1 220 222
21 1 230 234
22 1 240 245
23 1 250 253
24 1 260 265
25 1 500 501
26 1 505 508
27 1 510 515
28 1 520 521
29 1 525 543
30 1 550 555
6-ой вопрос - табличный вопрос, в котором каждая строка это подвопрос 6.1, 6.2, 6.3 и тд

Ранее я делал модель, основанную на случайном лесе и она очень успешно справлялась с классификацией вопросов на 1 и n на тестовой выборке данных. Данные для теста на вход модели поступали идеальные и результат был соответствующий или около того, но когда я внедрил модель в основную программу, конфигурационные файлы были "неудовлетворительные", результат был откровенно фиговый из-за того, что составители анкет - люди, а люди подвержены человеческому фактору и в самих анкетах попадаются ошибки (лишний пробел, иногда попадаются вопросы обычные,не табличные, но в них варианты ответов оформлены в таблице со скрытыми границами (не знаю зачем так сделали, может для удобства и красоты) и тд) и парсер на вход модели подаёт мусор и на выходе тоже получается мусор.
Я решил, что стоит перейти к обучению модели на основе компьютерного зрения так как для человека анкеты, с которыми работает программа, выглядят абсолютно обычно и все четыре цифры каждого вопроса определяются однозначно. Механизм работы программы будет следующий: на вход программы будет поступать анкета, далее будут сняты с нее png каждой страницы анкеты и они будут поступать на вход модели и под конец будет получен на выходе txt файл конфигурации анкеты.
Итак, вопрос: какой инструмент выбрать для разметки данных, как разметить анкеты в нем и как быть с вопросами, которые располагаются на нескольких страницах?

Вопрос задан 22 янв.
155 просмотров

10 комментариев

Подписаться 2 Простой 10 комментариев

Adamos @Adamos

Устранить человеческий фактор при создании анкет, состряпав их генератор, которым будет проще и удобнее пользоваться, нежели колхозить в ворде. Так и описания сойдутся, и метки можно расставить, если правда бумагу сканировать. Но вообще-то в идеале сохранить лес и сразу заполнять всю эту имбурде онлайн / в приложении на смарте. У любого переписчика он все равно в кармане.

Написано 22 янв.
accountnujen @accountnujen

Вы не описали, по какой причине такой извращённый метод - через Word.

Gemini Canvas (ИИ) по запросу сможет сгенерировать не только сам тест с валидацией, но и генератор теста, в котором вы будете выбирать вопросы, ответы, поля, формат ответа (выпадающий список, checkbox, текстовое поле, radio-кнопки, загрузка файла), валидацию и прочее. В конце он может отдавать сгенерированный HTML файл-теста. Данные будут отправляться к вам на сервер в любом удобном для вас виде. Почему пользователи не могут проходить такой тест?

Решение, на которое вы рассматриваете вызывает у меня недоумение...

Я решил, что стоит перейти к обучению модели на основе компьютерного зрения ... Механизм работы программы будет следующий: на вход программы будет поступать анкета, далее будут сняты с нее png каждой страницы анкеты и они будут поступать на вход модели и под конец будет получен на выходе txt файл конфигурации анкеты.

Где-то рядом находится "решение" - бить пользователей током, которые неправильно заполняют форму.

Написано 22 янв.
alexalexes @alexalexes

Выкидывайте word файл как способ ввода, пишите нормальный интерфейс формирования анкет.
В нормальной автоматизации такой документ может быть только выходным файлом - в качестве отчета о формировании анкеты.
Парсить такое, при возможности самому провести автоматизацию ввода - вверх извращения.

Написано 23 янв.
DerTY72 @DerTY72 Автор вопроса

accountnujen, спасибо за ответ, но опросы по таким анкетам проводятся исключительно на улице, т.е вживую и делема заключается ещё и в том, что для пользователя (которому необходимо составить конфигурационный файл) должна происходить "магия", заключающаяся в том, что даже если будет подаваться анкета с ошибками, результат будет всё равно правильный (как если бы по этой анкете составлял конфиг человек)

Написано 23 янв.
DerTY72 @DerTY72 Автор вопроса

alexalexes, приходится работать с тем, что есть...если дать этот word файл ,допустим, deepseek или qwen и объяснить что нужно на выходе, они же замечательно справятся с этой задачей. Конечно, можно все анкеты так обрабатывать, но мне нужно создать собственную модель под мою задачу т.е чтобы это было отдельное приложение.

Написано 23 янв.
DerTY72 @DerTY72 Автор вопроса

Adamos, спасибо за ваше мнение, но в моей работе человеческий фактор - неотъемлемая часть, он будет присутствовать в любом случае. И проведение опроса по данным анкетам не подразумевает удаленное анкетирование, а проводится непосредственно (т.е с любым прохожим на улице, считай что)

Написано 23 янв.
Adamos @Adamos

DerTY72, к любому прохожему на улице можно подойти не с бумажным планшетом, а с электронным.
Или просто смартфоном. Я об этом и говорил насчет "сохранить лес".
Впрочем, оптимизация бессмысленной деятельности - сама по себе бессмысленная деятельность.

Написано 23 янв.
DerTY72 @DerTY72 Автор вопроса

Adamos, хорошо, не особо и суть-то в каком варианте респондент будет проходить соц. опрос. Как в итоге мне преодолеть проблему того,что при наличии модели случайного леса и того, что на её вход поступают не всегда "образцовые" данные анкет получается на выходе некорректный результат???

Написано 23 янв.
Adamos @Adamos

DerTY72, shit in - shit out.
Устраняйте источник "не образцовости", постобработка не сделает левые данные корректными.

Написано 23 янв.
DerTY72 @DerTY72 Автор вопроса

Adamos, соглашусь, понятное дело. Но я с этим, к сожалению, ничего не могу поделать.

Написано 23 янв.

Помогут разобраться в теме Все курсы

Нетология

Data Scientist с нуля

10 месяцев

Далее
Академия Эдюсон

Machine Learning: тариф Базовый

7 месяцев

Далее
Бруноям

Data Scientist

8 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MacBook

+2 ещё

Простой
Mac для машинного обучения, стоит ли брать?
- 1 подписчик
- 19 июл.
- 313 просмотров
3

ответа
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 152 просмотра
2

ответа
Машинное обучение

+1 ещё

Средний
Как устроены Нейрохам и подобные ему боты с точки зрения ML?
- 1 подписчик
- 24 июн.
- 520 просмотров
2

ответа
Машинное обучение

+1 ещё

Простой
Какие темы в статистике нужно изучить прежде всего, чтобы начать решать простые задачи машинного обучения?
- 2 подписчика
- 25 мая
- 231 просмотр
2

ответа
IT-образование

+1 ещё

Простой
Важны ли алгоритмы и структуры данных для ML-инженера?
- 2 подписчика
- 25 мая
- 517 просмотров
2

ответа
Карьера в IT

+1 ещё

Простой
Стоит ли беспокоится, если иду в NLP, но я плох на числовых табличных данных?
- 1 подписчик
- 11 мая
- 469 просмотров
1

ответ
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 371 просмотр
1

ответ
Машинное обучение

+1 ещё

Средний
Может, у кого-то есть дампы с реальными наименованиями товаров/услуг и кодами ОКПД2 для обучения NLP-модели?
- 1 подписчик
- 16 янв.
- 140 просмотров
0

ответов
Машинное обучение

Простой
Можно ли получить сразу полный список чего-либо от LLM по определённому критерию?
- 1 подписчик
- 28 дек. 2025
- 136 просмотров
1

ответ
Показать ещё Загружается…

Устранить человеческий фактор при создании анкет, состряпав их генератор, которым будет проще и удобнее пользоваться, нежели колхозить в ворде. Так и описания сойдутся, и метки можно расставить, если правда бумагу сканировать. Но вообще-то в идеале сохранить лес и сразу заполнять всю эту имбурде онлайн / в приложении на смарте. У любого переписчика он все равно в кармане.
Вы не описали, по какой причине такой извращённый метод - через Word.

Gemini Canvas (ИИ) по запросу сможет сгенерировать не только сам тест с валидацией, но и генератор теста, в котором вы будете выбирать вопросы, ответы, поля, формат ответа (выпадающий список, checkbox, текстовое поле, radio-кнопки, загрузка файла), валидацию и прочее. В конце он может отдавать сгенерированный HTML файл-теста. Данные будут отправляться к вам на сервер в любом удобном для вас виде. Почему пользователи не могут проходить такой тест?

Решение, на которое вы рассматриваете вызывает у меня недоумение...

Я решил, что стоит перейти к обучению модели на основе компьютерного зрения ... Механизм работы программы будет следующий: на вход программы будет поступать анкета, далее будут сняты с нее png каждой страницы анкеты и они будут поступать на вход модели и под конец будет получен на выходе txt файл конфигурации анкеты.

Где-то рядом находится "решение" - бить пользователей током, которые неправильно заполняют форму.
Выкидывайте word файл как способ ввода, пишите нормальный интерфейс формирования анкет.
В нормальной автоматизации такой документ может быть только выходным файлом - в качестве отчета о формировании анкеты.
Парсить такое, при возможности самому провести автоматизацию ввода - вверх извращения.
accountnujen, спасибо за ответ, но опросы по таким анкетам проводятся исключительно на улице, т.е вживую и делема заключается ещё и в том, что для пользователя (которому необходимо составить конфигурационный файл) должна происходить "магия", заключающаяся в том, что даже если будет подаваться анкета с ошибками, результат будет всё равно правильный (как если бы по этой анкете составлял конфиг человек)
alexalexes, приходится работать с тем, что есть...если дать этот word файл ,допустим, deepseek или qwen и объяснить что нужно на выходе, они же замечательно справятся с этой задачей. Конечно, можно все анкеты так обрабатывать, но мне нужно создать собственную модель под мою задачу т.е чтобы это было отдельное приложение.
Adamos, спасибо за ваше мнение, но в моей работе человеческий фактор - неотъемлемая часть, он будет присутствовать в любом случае. И проведение опроса по данным анкетам не подразумевает удаленное анкетирование, а проводится непосредственно (т.е с любым прохожим на улице, считай что)
DerTY72, к любому прохожему на улице можно подойти не с бумажным планшетом, а с электронным.
Или просто смартфоном. Я об этом и говорил насчет "сохранить лес".
Впрочем, оптимизация бессмысленной деятельности - сама по себе бессмысленная деятельность.
Adamos, хорошо, не особо и суть-то в каком варианте респондент будет проходить соц. опрос. Как в итоге мне преодолеть проблему того,что при наличии модели случайного леса и того, что на её вход поступают не всегда "образцовые" данные анкет получается на выходе некорректный результат???
DerTY72, shit in - shit out.
Устраняйте источник "не образцовости", постобработка не сделает левые данные корректными.
Adamos, соглашусь, понятное дело. Но я с этим, к сожалению, ничего не могу поделать.

Необходимо разработать модель классификации, поможете с выбором парадигмы решения задачи?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт