Как реализовать неточный поиск вхождений в документ?

Question

chemiron @chemiron

Python

Как реализовать неточный поиск вхождений в документ?

Здравствуйте.
Есть таблица содержащая 10к+ имен. Кроме того есть тысячи сканированных pdf файлов распознаных с помощью tesseract. Документы не имеют какой-то четко выраженной структуры, имеются ошибки распознавания символов. Нужно организовать неточный поиск вхождений имен из базы в каждом из документов (допускается наличие 1-2 ошибок при поиске). Какие возможные варианты можете предложить? Спасибо

P.S. Разработка ведется на python

Вопрос задан более трёх лет назад
145 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 211 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 557 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 495 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 283 просмотра
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 510 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 126 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 665 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 346 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2016-09-22 19:31:51

Какие возможные варианты можете предложить?

- устанавливаете численную "метрику" расхождения символов: например, и-й, д-л ... это достаточно близко - 1, э-я - весьма далеко - 5 ... полное совпадение - 0
- но можете использовать и просто абсолютную величину разницы кодов символов ...
- подсчитываете посимвольно сумму расхождений метрик слов (расстояние): 0 - точное совпадение, 1 - кое-как и т.д.
- определяет порог совпадений ... скажем 4 ...
- слова с расстоянием < порога - тождественные, > - различающиеся.

Как реализовать неточный поиск вхождений в документ?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт