@chemiron

Как реализовать неточный поиск вхождений в документ?

Здравствуйте.
Есть таблица содержащая 10к+ имен. Кроме того есть тысячи сканированных pdf файлов распознаных с помощью tesseract. Документы не имеют какой-то четко выраженной структуры, имеются ошибки распознавания символов. Нужно организовать неточный поиск вхождений имен из базы в каждом из документов (допускается наличие 1-2 ошибок при поиске). Какие возможные варианты можете предложить? Спасибо

P.S. Разработка ведется на python
  • Вопрос задан
  • 138 просмотров
Пригласить эксперта
Ответы на вопрос 1
Olej
@Olej
инженер, программист, преподаватель
Какие возможные варианты можете предложить?

- устанавливаете численную "метрику" расхождения символов: например, и-й, д-л ... это достаточно близко - 1, э-я - весьма далеко - 5 ... полное совпадение - 0
- но можете использовать и просто абсолютную величину разницы кодов символов ...
- подсчитываете посимвольно сумму расхождений метрик слов (расстояние): 0 - точное совпадение, 1 - кое-как и т.д.
- определяет порог совпадений ... скажем 4 ...
- слова с расстоянием < порога - тождественные, > - различающиеся.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы