Задать вопрос

Сергей Соколов @sergiks

♬♬

машинное-обучение

Машинное обучение

Объясните OCR на пальцах: как разобрать последовательность букв?

Понимаю, как работает классификатор, разбирающий единичные символы. Тот же рукописный MNIST. Для своей задачи построил примитивную модель, которая прекрасно справляется с моей частной задачей: определённый шрифт, всего 21 символ в алфавите — отдельные символы распознаются на ура.

шрифт и модель

пример моего шрифта, нагенерил картинок для обучения:

Примитивная модель. 21 класс:

model = tf.keras.models.Sequential([
  tf.keras.layers.Flatten(input_shape=(28, 28, 1)),
  tf.keras.layers.Dense(128,activation='relu'),
  tf.keras.layers.Dense(21, activation='softmax')
])
model.compile(
    loss='categorical_crossentropy',
    optimizer=tf.keras.optimizers.Adam(0.001),
    metrics=['accuracy'],
)

Не могу «въехать», как разбирать последовательность: строку текста.

Длина строки известна и постоянна: 11 символов. Словарь неприменим: это серийные номера.

Примеры

исходный:

обработанный:

сгенеренный:

Из того, что прочитал, понял, что надо конволюционно «ехать взглядом» вдоль строки маленькими шагами, на каждом пытаясь опознать символ «в кадре».

Не могу понять, как из набора выходных предположений строить окончательную строку. Ведь на нескольких соседних кадрах символ может повторяться. Между символами могут с низкой уверенностью предполагаться какие-то левые варианты. Пишут про CTC loss function (Connectionist Temporal Classification), но там обучение на большом объёме примеров. А у меня полный перебор всех комбинаций алфавита.

Хочу реализовать это самостоятельно, без OpenCV, Tesseract и Keras-OCR. Только TensorFlow, Keras, ~~хард-~~софткор.

Вопрос задан более трёх лет назад
471 просмотр

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Инженер машинного обучения

4 месяца

Далее
Skillbox

Профессия Machine Learning Engineer

12 месяцев

Далее
Skillbox

Machine Learning с нуля до Junior

9 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 164 просмотра
0

ответов
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент.
- 193 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
С помощью чего проанализировать данные и построить свою нейронную сеть для бана пользователей?
- 1 подписчик
- 09 сент.
- 188 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Как повысить macro f1 в задаче классификации изображения?
- 1 подписчик
- 03 сент.
- 61 просмотр
0

ответов
Веб-разработка

+1 ещё

Простой
Какие есть ML-инструменты, которые по структуре или изображению лендинга предсказывают зоны внимания пользователей?
- 1 подписчик
- 28 авг.
- 399 просмотров
3

ответа
Видеокарты

+1 ещё

Средний
Целесообразно ли использование двух RTX 5080 для обучения нейросетей?
- 1 подписчик
- 24 авг.
- 403 просмотра
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 467 просмотров
3

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 65 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 148 просмотров
3

ответа
Python

+3 ещё

Простой
Как повысить точность классификации по табличным документам?
- 2 подписчика
- 19 мая
- 308 просмотров
1

ответ
Показать ещё Загружается…

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Старший инженер

Гринатом • Петрозаводск

До 80 000 ₽

Project менеджер / Менеджер проекта

W3Promo • Москва

от 60 000 до 100 000 ₽