Что нужно изучить для преобразования табличного расписания в удобный json файл?

Question

Ruslan Malkhozov @bybon4uk

Что нужно изучить для преобразования табличного расписания в удобный json файл?

Образец файла, с которым предстоит работа (расположение таблицы, а также размеры ячеек у всех одинаковое, кроме тех случаев, когда ширина ячейки мб шире в два-тра раза, в отличие от стандартной)

Представление работы с ячейками

Основная суть вопроса, какие вещи необходимо уяснить, какие книги посоветуете, для того, чтобы решить такую задачу.
Пояснение к работе:
Написание программы, которая бы преобразовывала такую картинку с расписанием, в json файл, с которыми можно было бы производить отдельные операции

Образец .json файла:

"title" "Трёхмерное графическое моделирование"
"lecturer" "Крутов А.В."
"type" "Laboratory"
"subgroup" "(А)"
"classroom" "ТехП 11"
"start" "16:00"
"end" "19:30"
"frequency" "throught"
"date" "2019.09.10-2019.12.03"

Как я представляю решение этой задачи:
1. На картинке распознаем таблицу, проводим прямые линии, если не ошибаюсь Canny метод может искать границы объектов, первая строка и первый столбец кстати вообще не нужны (время зависит от ширины и местоположения ячейки, как бы это по странному не звучало, а какой день недели вообще не играет роли)
2. Смотрим в каких ближайших точках идет пересечение линий, в соответствии с ними мы можем выбрать прямоугольную область, с которой мы можем производить распознавание текста, с последующим преобразованием в json файл, причем при работе с текстом тоже есть ряд вопросов, как его правильно классифицировать, так как в табличке мб несколько записей занятий, даты могут быть указаны разные для нескольких промежутков, какая-то информация может быть не совсем типовая, как у др предметов и т.д.
3. В соответствии с расположением этой прямоугольной области, определяем какое время должно быть присвоено всем проводимым занятиям в данной ячейке
4. Самое распознавание текста и классификация в зависимости от данных
5. Подходим к следующей прямоугольной области (слева направо и сверху вниз)

Опыт программирования небольшой, из языков знаю только C++, базовые вещи из ОПП знаю (хотя все субъективно)), как я понимаю библиотека OpenCV C++ очень поможет мне в решении этой задачи, ещё насколько понимаю, что распознавать текст придется с помощью другой библиотеки (на базе OCR), плюс ещё скорее всего будут какие-то сюрпризы

Вопрос задан более трёх лет назад
130 просмотров

9 комментариев

Подписаться 1 Простой 9 комментариев

xmoonlight @xmoonlight

Это одноразовая задача или периодическая?

Написано более трёх лет назад
Ruslan Malkhozov @bybon4uk Автор вопроса

xmoonlight, периодическая, табличек таких штук ~50, вид таблицы один и тотже, но разные данные и ячейки по ширине могут отличаться

Написано более трёх лет назад
xmoonlight @xmoonlight

Ruslan Malkhozov, не проще сделать единую систему однократно?

Написано более трёх лет назад
Ruslan Malkhozov @bybon4uk Автор вопроса

xmoonlight, проще, но это не в моих полномочиях и суть немного не в этом. Я хочу спрогрессировать в программировании и выбрал ту задачу, которая мне кажется решаемой, но в тоже время сложной, из-за недостатока опыта работы и в тоже время, которая будет полезной в будущем (скорее всего). И возможно ещё, что из описания задачи не ясно, но этот json файлик хранит всю информацию по одному расписанию, все равно что оно представлено в таком виде, я уже знаю как я его буду обрабатывать позже

Написано более трёх лет назад
xmoonlight @xmoonlight

Ruslan Malkhozov,
и в тоже время, которая будет полезной в будущем (скорее всего).
точно не будет. Хотите распознавание в целях саморазвития - выбирайте перспективную задачу, а не эту.

Написано более трёх лет назад
Roman @myjcom Куратор тега C++

Зачем нужна картинка, когда есть исходник файла. Если есть исходник, то с этим и ексель справится.

Написано более трёх лет назад
Ruslan Malkhozov @bybon4uk Автор вопроса

xmoonlight, я же не спрашиваю, что вот у меня такая задача, соотнесите её с тем, насколько я дегенерат выбрав именно её. Я хочу узнать у людей с опытом работы в этой сфере куда мне в первую очередь лезть, с чем нужно сразу разобраться для её решения

Написано более трёх лет назад
Ruslan Malkhozov @bybon4uk Автор вопроса

Roman, есть только pdf файл, который также может быть сканом. Хотя думаю вполне можно с помощью ABBYY перевести их в Excel файл

Написано более трёх лет назад
Roman @myjcom Куратор тега C++

Ruslan Malkhozov,
https://github.com/tesseract-ocr/tesseract

https://www.boost.org/doc/libs/1_72_0/libs/spirit/...

https://github.com/nlohmann/json

Главное начать. Придумать, погуглить, как с помощью OpenCV разбить картинку на прямоугольные сегменты для скармливания t.. OCR, потом парсинг с помощью Spirit и упаковка результата в json.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Разработчик на C++

12 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unreal Engine + ИИ

9 месяцев

Далее
Stepik

Профессия: Разработчик C++ (Junior)

2 месяца

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- 22 июл.
- 147 просмотров
2

ответа
C++

Простой
Нарушается ли тут strict aliasing rule?
- 1 подписчик
- 19 июл.
- 58 просмотров
1

ответ
C++

Простой
Безопасно ли преобразование reinterpret_cast из указателя в массив?
- 1 подписчик
- 18 июл.
- 69 просмотров
2

ответа
C++

Простой
Как сделать скриншот второго монитора на С++?
- 1 подписчик
- 14 июл.
- 144 просмотра
4

ответа
C++

Простой
Возможно ли сделать скрин действующего окна через Alt + PrtSc на С++?
- 1 подписчик
- 08 июл.
- 142 просмотра
2

ответа
C++

Простой
Как можно через ООП сериализировать в разные форматы в едином стиле?
- 2 подписчика
- 07 июл.
- 115 просмотров
3

ответа
C++

+1 ещё

Простой
Почему компилятор подчёркивает импортируемый класс как ошибку «индификатор не определён»?
- 1 подписчик
- 04 июл.
- 121 просмотр
2

ответа
C++

Сложный
Концепт проверки совместимости с шаблонным конструктором?
- 1 подписчик
- 25 июн.
- 109 просмотров
1

ответ
C++

Простой
Я единственный у кого cppreference.com через раз падает с ERR_TIMED_OUT?
- 1 подписчик
- 21 июн.
- 199 просмотров
2

ответа
C++

+1 ещё

Простой
Как правильно посчитать UV координаты из локальных нормальных?
- 1 подписчик
- 20 июн.
- 117 просмотров
1

ответ
Показать ещё Загружается…

Это одноразовая задача или периодическая?
xmoonlight, периодическая, табличек таких штук ~50, вид таблицы один и тотже, но разные данные и ячейки по ширине могут отличаться
Ruslan Malkhozov, не проще сделать единую систему однократно?
xmoonlight, проще, но это не в моих полномочиях и суть немного не в этом. Я хочу спрогрессировать в программировании и выбрал ту задачу, которая мне кажется решаемой, но в тоже время сложной, из-за недостатока опыта работы и в тоже время, которая будет полезной в будущем (скорее всего). И возможно ещё, что из описания задачи не ясно, но этот json файлик хранит всю информацию по одному расписанию, все равно что оно представлено в таком виде, я уже знаю как я его буду обрабатывать позже
Ruslan Malkhozov,
и в тоже время, которая будет полезной в будущем (скорее всего).
точно не будет. Хотите распознавание в целях саморазвития - выбирайте перспективную задачу, а не эту.
Зачем нужна картинка, когда есть исходник файла. Если есть исходник, то с этим и ексель справится.
xmoonlight, я же не спрашиваю, что вот у меня такая задача, соотнесите её с тем, насколько я дегенерат выбрав именно её. Я хочу узнать у людей с опытом работы в этой сфере куда мне в первую очередь лезть, с чем нужно сразу разобраться для её решения
Roman, есть только pdf файл, который также может быть сканом. Хотя думаю вполне можно с помощью ABBYY перевести их в Excel файл
Ruslan Malkhozov,
https://github.com/tesseract-ocr/tesseract

https://www.boost.org/doc/libs/1_72_0/libs/spirit/...

https://github.com/nlohmann/json

Главное начать. Придумать, погуглить, как с помощью OpenCV разбить картинку на прямоугольные сегменты для скармливания t.. OCR, потом парсинг с помощью Spirit и упаковка результата в json.

Что нужно изучить для преобразования табличного расписания в удобный json файл?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт