Ответы пользователя rPman по тегу «Распознавание текста»

Как добиться распознавания текста и цифр в 99,9%?

rPman @rPman

Низкое качество каждого кадра видео по отдельности, но человеческий мозг вытягивает из нескольких соседних кадров информацию и распознает

У тебя условно два пути:
1. попытаться из видео какими-то методами, не обязательно нейронной сетью, вытянуть повышение качества изображения, и уже на нем проводить распознавание
2. собрать 3d обучающую выборку, где одним примером является серия соседних кадров одного и того же участка (можно кстати комбинировать методы из 1 пути, для центрирования искомой части изображения, что бы можно было распознавать в движении)

Второй метод универсальнее, и в каком то смысле проще, если ты сможешь собрать большую обучающую выборку.. но первый даст прогнозируемое качество.

Для первого, пример использования - stacking, используемый в астрофотографии

Ответ написан 14 янв.

Комментировать

Какая нейросеть лучше подойдёт для распознавания слов из mp3?

rPman @rPman

whisper от openai, есть версия для процессора от ggreganov whisper.cpp

Ответ написан более года назад

Комментировать

Как распознавать церковнославянский язык?

rPman @rPman

Tesseract это программа, которую можно до обучить на своих текстах для лучшего распознавания необычных шрифтов или языка (первый же ответ из гугла на русском)

p.s. в этом вопросе предложили специализированный софт gamera с gui для интерактивного обучения под неизвестные языки

Ответ написан более двух лет назад

12 комментариев

Как написать нейросеть способную распознать улицы на которых ведутся работы через NLP?

rPman @rPman

У тебя ошибка в терминах - работой с текстами занимаются языковые модели, а 'распознавание текста' это работа с изображением или звуком с целью преобразования его в текст.

С нуля этим заниматься будет очень сложно, нужны большие датасеты, причем большие - это порядка сотен миллионов или миллиардов токенов, причем размеры моделей могут быть не слишком большими. До эпохи трансформеров алгоритмы работы с текстом 'не понимали смысла'.

Лучшее что сейчас есть готовое это LLM на основе трансформера (GPT). Предобученных моделей огромное количество, из открытых и более менее рабочих - opt (не доступна нормальная 175b и кажется только английский) и bloomz (мультиязыковая, смотри таблицу разных размеров) но они значительно слабее chatgpt35 и никто не приблизился к chatgpt4. По ссылкам подробное описание, там есть информация как использовать примеры. К сожалению работа с языковыми моделями требует очень дорогое оборудование, а на процессоре они работают в сотни раз медленнее (код так написан, он оптимизирован для gpu).

Что значит слабее - это значит хоть знаний в этим модели влито огромное количество, но воспользоваться ими можно будет качественно только после fine tuning - дообучения на своих данных (примеры вопрос - ответ например, но не обязательно), главное тут то что количество данных для этого может быть очень маленьким (тысячи или даже сотни примеров). Есть алгоритмы peft - которые вместо тюнинга самой модели, работают с весами токенов запроса, это не вносит новых знаний в модель но увеличивает качество ответа (этим пользуются во время проведения бенчмарков сравнения моделей, например prompt tuning), я слышал что для этих алгоритмов количество примеров может быть еще меньше - десятки.

p.s. llama одна из лучших 'доступных' моделей (мультиязычная от 30b) но использование ее без разрешения facebook нелегально, и ее можно даже не дообучать (но рекомендуется добавлять в запрос хотя бы один-два примера, сколько позволит мизерный размер контекста в 2к токенов), с ее качеством можно буквально анализировать смысл текста простыми вопросами.

llama.cpp - код по запуску (не обучению) gpt моделей, не только llama, на процессоре (есть слабая поддержка gpu) оптимизированно на столько хорошо, что медленее дорогих сборок с gpu в десяток раз (а десктопные могут работать сравнимо с топовыми cpu), например llama30b обрабатывает 250мс на токен запроса и 500мс на генерацию (65b - 1100мс на генерацию).

Из недостатков - слабая логика и плохая детекция конца ответа (может уйти в генерацию мусорного текста), требует определять логику завершения генерации 'снаружи', например часто достаточно выставить финишным текстом ### (управляющие символы, часто встречаются в галюцинациях и могут использоваться для оформления запроса)

Ответ написан более двух лет назад

1 комментарий

Необходима библиотека для распознавание текста с документа на PHP?

rPman @rPman

открытый бесплатный готовый к использованию - tesseract
недостаток, если документ не распознается, то нужно будет тюнить его шрифты

на английский язык и некоторые другие языки есть современные языковые OCR модели, гуглить на huggingface.co ocr multilang, на русский я не нашел. Но куча готового софта, подбираешь датасет, обучаешь,...

Ответ написан более двух лет назад

2 комментария

Найросеть для распознания цифр?

rPman @rPman

конечно, но чисто нейросетью наверное будет дорого
сначала нужно очистить изображение от мусора, очевидно что убрав сначала все черные точки, заменив их на белые, затем белые, заменив их на черные, а затем убрать черные области, в которые можно вписать окружность больше определенного радиуса, после этого удаляешь оставшиеся объекты чья площадь ниже некоторого порога,.. после чего останутся цифры и длинные полоски (а может и большая часть и их уйдет)

угол поворота цифр смотришь, найдя прямоугольник выше определенного размера, в который вписаны объекты, угол наклона длинной стороны будет искомым, содержимое прямоугольника поворачиваешь и скалишь к константному размеру и дальше обрабатываешь (цифры будут не повернуты но со случайным смещением)

дальше уже можно цифры выделять, по минимальной и максимальной их ширине, выискивая минимальное количество черных точекна вертикальной бегущей сканирующей линии.

обучить нейросеть определять уже обработанные цифры не будет сложно, и кстати нейросеть тут даже не понадобится, если у тебя есть прямоугольник со вписанной цифрой, делишь его на области, смотришь наличие в них черных или белых точек, чего больше, и уже их сравниваешь с заранее подготовленным списком вариантов

Ответ написан более трёх лет назад

1 комментарий

Какой одноплатник и видеокамеру выбрать сейчас в 2021 году для мобильной системы распознавания образов\текстов?

rPman @rPman

Не е*и себе мозги, пожалей себя
Год назад я бы сказал - возьми любую x86 железку со встроенным процом, к примеру интелевские j-серии неплохие по мощности (особенно 19+ годов выпуска), с потреблением до 15ват, с использованием opencl встроенная видяха даст кое какое ускорение (если найдешь готовые библиотеки нейронок под это, они есть но на порядок меньше чем под nvidia), и при необходимости добавишь видеокарту, любую...

Но кризис пожрал рынок комплектующих, прайслисты полупустые, найти адекватное железо по адекватной цене стало почти невозможно, поэтому хз, у китайцев может что есть, они вон даже видеокарту собирались свою пилить.

upd. Я тут подумал, одно время это было решением, - покупаешь смартфон (из дешевых у сяоми хорошие камеры есть), выбираешь на али объектив нашлепку на смартфон (там есть как рыбий глаз так и узкий угол зрения) и получишь сразу и камеру, и проц, и компактность, и временную автономность (можно даже ветряк запилить, я серьезно, для смартфона это будет ветряк вида флюгер как украшение, но готовые решения я боюсь найти будет сложно или дорого, дешевле и разумнее сколхозить)

еще намек - распознование образов в реальном времени не тянут даже стационарные компы с дорогой видеокартой с киловат/час энергопотребления

Ответ написан более трёх лет назад

7 комментариев

После восстановления Windows не запускается По, работает только другая версия, почему?

rPman @rPman

Для начало это

ошибки диска. SMART WARNING -> MHDD - ERASE

диск в мусорку, заменяем новым и только тогда работаем, так как ничто так не уничтожает данные как ошибки с диском во время починки chkdsk.

Скорее всего поврежден реестр, красивого решения не будет, правильно - восстановить из резервной копии хоть какую старую, но бакапов как я понимаю нет.
Если создание новго пользователя ничего не меняет, значит поврежден реестр hklm или место описания activex объектов, но если переустановка ПО (надеюсь речь идет об удалении+чистка+установка а не восстановлении) то тогда совсем странно.

Советую все же переустановить саму систему, времени и нервов сэкономишь больше.

Ответ написан более трёх лет назад

7 комментариев

Бесплатное ПО для оцифровки большого объёма сканов?

rPman @rPman

Полностью автоматического софта хорошо сканирующего документы в виде сканов бумажных наверное не существует, там очень много нюансов.

Лучший и наверное единственный из бесплатных - Tesseract. Но это инструмент (консольное приложение или библиотека), до создания базы данных потребуется немного пилить софт, но конкретно оцифровка тут не наложит каких то сложностей, скорее ваши задачи поиска.

Если он не понимает ваш шрифт или язык, можно попытаться его до обучить.

Ответ написан более трёх лет назад

1 комментарий

Распознование текста в pdf с внедрением его в тот же pdf, возможно ли бесплатно, т.е. даром?

rPman @rPman

Почему текст нужно править и распознавать именно в pdf а не ранее, в jpeg?

tesseract - открытый и бесплатный набор утилит для распознавания текстов, обычно предварительно с изображением делают манипуляции используя фильтры или какую еще логику, чтобы tesseract мог это распознать (например если изображение - это не сканы а фото бумажных документов, необходимо убрать световые переходы и искажения геометрии).

p.s. 'не прилагая особых усилий' - не получится

Ответ написан более трёх лет назад

1 комментарий

Где можно найти ocr sdk с распознаванием текста в реальном времени из видеопотока на русском языке в android приложении?

rPman @rPman

https://tech.yandex.ru/speechkit/
https://cloud.google.com/speech/

есть шанс воспользоваться готовыми решениями и даже офлайн на android, но сегодня работает завтра нет (ну если речь идет о годах).. онлайн работает отлично (я сужу по приложениям, это использующим).
https://developer.android.com/reference/android/sp... (точнее это выдал гугл, возможно нужно получше искать)

Ответ написан более трёх лет назад

2 комментария

Войдите на сайт