Ответы пользователя по тегу Распознавание текста
  • Какая нейросеть лучше подойдёт для распознавания слов из mp3?

    @rPman
    whisper от openai, есть версия для процессора от ggreganov whisper.cpp
    Ответ написан
    Комментировать
  • Как распознавать церковнославянский язык?

    @rPman
    Tesseract это программа, которую можно до обучить на своих текстах для лучшего распознавания необычных шрифтов или языка (первый же ответ из гугла на русском)

    p.s. в этом вопросе предложили специализированный софт gamera с gui для интерактивного обучения под неизвестные языки
    Ответ написан
  • Как написать нейросеть способную распознать улицы на которых ведутся работы через NLP?

    @rPman
    У тебя ошибка в терминах - работой с текстами занимаются языковые модели, а 'распознавание текста' это работа с изображением или звуком с целью преобразования его в текст.

    С нуля этим заниматься будет очень сложно, нужны большие датасеты, причем большие - это порядка сотен миллионов или миллиардов токенов, причем размеры моделей могут быть не слишком большими. До эпохи трансформеров алгоритмы работы с текстом 'не понимали смысла'.

    Лучшее что сейчас есть готовое это LLM на основе трансформера (GPT). Предобученных моделей огромное количество, из открытых и более менее рабочих - opt (не доступна нормальная 175b и кажется только английский) и bloomz (мультиязыковая, смотри таблицу разных размеров) но они значительно слабее chatgpt35 и никто не приблизился к chatgpt4. По ссылкам подробное описание, там есть информация как использовать примеры. К сожалению работа с языковыми моделями требует очень дорогое оборудование, а на процессоре они работают в сотни раз медленнее (код так написан, он оптимизирован для gpu).

    Что значит слабее - это значит хоть знаний в этим модели влито огромное количество, но воспользоваться ими можно будет качественно только после fine tuning - дообучения на своих данных (примеры вопрос - ответ например, но не обязательно), главное тут то что количество данных для этого может быть очень маленьким (тысячи или даже сотни примеров). Есть алгоритмы peft - которые вместо тюнинга самой модели, работают с весами токенов запроса, это не вносит новых знаний в модель но увеличивает качество ответа (этим пользуются во время проведения бенчмарков сравнения моделей, например prompt tuning), я слышал что для этих алгоритмов количество примеров может быть еще меньше - десятки.

    p.s. llama одна из лучших 'доступных' моделей (мультиязычная от 30b) но использование ее без разрешения facebook нелегально, и ее можно даже не дообучать (но рекомендуется добавлять в запрос хотя бы один-два примера, сколько позволит мизерный размер контекста в 2к токенов), с ее качеством можно буквально анализировать смысл текста простыми вопросами.

    llama.cpp - код по запуску (не обучению) gpt моделей, не только llama, на процессоре (есть слабая поддержка gpu) оптимизированно на столько хорошо, что медленее дорогих сборок с gpu в десяток раз (а десктопные могут работать сравнимо с топовыми cpu), например llama30b обрабатывает 250мс на токен запроса и 500мс на генерацию (65b - 1100мс на генерацию).

    Из недостатков - слабая логика и плохая детекция конца ответа (может уйти в генерацию мусорного текста), требует определять логику завершения генерации 'снаружи', например часто достаточно выставить финишным текстом ### (управляющие символы, часто встречаются в галюцинациях и могут использоваться для оформления запроса)
    Ответ написан
    1 комментарий
  • Необходима библиотека для распознавание текста с документа на PHP?

    @rPman
    открытый бесплатный готовый к использованию - tesseract
    недостаток, если документ не распознается, то нужно будет тюнить его шрифты

    на английский язык и некоторые другие языки есть современные языковые OCR модели, гуглить на huggingface.co ocr multilang, на русский я не нашел. Но куча готового софта, подбираешь датасет, обучаешь,...
    Ответ написан
    2 комментария
  • Найросеть для распознания цифр?

    @rPman
    конечно, но чисто нейросетью наверное будет дорого
    сначала нужно очистить изображение от мусора, очевидно что убрав сначала все черные точки, заменив их на белые, затем белые, заменив их на черные, а затем убрать черные области, в которые можно вписать окружность больше определенного радиуса, после этого удаляешь оставшиеся объекты чья площадь ниже некоторого порога,.. после чего останутся цифры и длинные полоски (а может и большая часть и их уйдет)

    угол поворота цифр смотришь, найдя прямоугольник выше определенного размера, в который вписаны объекты, угол наклона длинной стороны будет искомым, содержимое прямоугольника поворачиваешь и скалишь к константному размеру и дальше обрабатываешь (цифры будут не повернуты но со случайным смещением)

    дальше уже можно цифры выделять, по минимальной и максимальной их ширине, выискивая минимальное количество черных точекна вертикальной бегущей сканирующей линии.

    обучить нейросеть определять уже обработанные цифры не будет сложно, и кстати нейросеть тут даже не понадобится, если у тебя есть прямоугольник со вписанной цифрой, делишь его на области, смотришь наличие в них черных или белых точек, чего больше, и уже их сравниваешь с заранее подготовленным списком вариантов
    Ответ написан
    1 комментарий
  • Какой одноплатник и видеокамеру выбрать сейчас в 2021 году для мобильной системы распознавания образов\текстов?

    @rPman
    Не е*и себе мозги, пожалей себя
    Год назад я бы сказал - возьми любую x86 железку со встроенным процом, к примеру интелевские j-серии неплохие по мощности (особенно 19+ годов выпуска), с потреблением до 15ват, с использованием opencl встроенная видяха даст кое какое ускорение (если найдешь готовые библиотеки нейронок под это, они есть но на порядок меньше чем под nvidia), и при необходимости добавишь видеокарту, любую...

    Но кризис пожрал рынок комплектующих, прайслисты полупустые, найти адекватное железо по адекватной цене стало почти невозможно, поэтому хз, у китайцев может что есть, они вон даже видеокарту собирались свою пилить.

    upd. Я тут подумал, одно время это было решением, - покупаешь смартфон (из дешевых у сяоми хорошие камеры есть), выбираешь на али объектив нашлепку на смартфон (там есть как рыбий глаз так и узкий угол зрения) и получишь сразу и камеру, и проц, и компактность, и временную автономность (можно даже ветряк запилить, я серьезно, для смартфона это будет ветряк вида флюгер как украшение, но готовые решения я боюсь найти будет сложно или дорого, дешевле и разумнее сколхозить)

    еще намек - распознование образов в реальном времени не тянут даже стационарные компы с дорогой видеокартой с киловат/час энергопотребления
    Ответ написан
  • После восстановления Windows не запускается По, работает только другая версия, почему?

    @rPman
    Для начало это
    ошибки диска. SMART WARNING -> MHDD - ERASE
    диск в мусорку, заменяем новым и только тогда работаем, так как ничто так не уничтожает данные как ошибки с диском во время починки chkdsk.

    Скорее всего поврежден реестр, красивого решения не будет, правильно - восстановить из резервной копии хоть какую старую, но бакапов как я понимаю нет.
    Если создание новго пользователя ничего не меняет, значит поврежден реестр hklm или место описания activex объектов, но если переустановка ПО (надеюсь речь идет об удалении+чистка+установка а не восстановлении) то тогда совсем странно.

    Советую все же переустановить саму систему, времени и нервов сэкономишь больше.
    Ответ написан
    7 комментариев
  • Бесплатное ПО для оцифровки большого объёма сканов?

    @rPman
    Полностью автоматического софта хорошо сканирующего документы в виде сканов бумажных наверное не существует, там очень много нюансов.

    Лучший и наверное единственный из бесплатных - Tesseract. Но это инструмент (консольное приложение или библиотека), до создания базы данных потребуется немного пилить софт, но конкретно оцифровка тут не наложит каких то сложностей, скорее ваши задачи поиска.

    Если он не понимает ваш шрифт или язык, можно попытаться его до обучить.
    Ответ написан
    1 комментарий
  • Распознование текста в pdf с внедрением его в тот же pdf, возможно ли бесплатно, т.е. даром?

    @rPman
    Почему текст нужно править и распознавать именно в pdf а не ранее, в jpeg?

    tesseract - открытый и бесплатный набор утилит для распознавания текстов, обычно предварительно с изображением делают манипуляции используя фильтры или какую еще логику, чтобы tesseract мог это распознать (например если изображение - это не сканы а фото бумажных документов, необходимо убрать световые переходы и искажения геометрии).

    p.s. 'не прилагая особых усилий' - не получится
    Ответ написан
    1 комментарий
  • Где можно найти ocr sdk с распознаванием текста в реальном времени из видеопотока на русском языке в android приложении?

    @rPman
    https://tech.yandex.ru/speechkit/
    https://cloud.google.com/speech/

    есть шанс воспользоваться готовыми решениями и даже офлайн на android, но сегодня работает завтра нет (ну если речь идет о годах).. онлайн работает отлично (я сужу по приложениям, это использующим).
    https://developer.android.com/reference/android/sp... (точнее это выдал гугл, возможно нужно получше искать)
    Ответ написан