Как вычленить из текста ФИО на python, при том что конкретных шаблонов нет?

Question

pulivilizator @pulivilizator

Как вычленить из текста ФИО на python, при том что конкретных шаблонов нет?

Как можно достать ФИО из текста(текста могут быть абсолютно разными и не иметь ничего общего), учитывая что ФИО всегда в формате 'Фамилия Имя Отчество', но в нем могут быть ошибки либо неправильный регистр, например: 'Кравец арртем вячеславович', 'морозова ЕЛЕНа викторовна' и тп, а также встречаются ФИО с двойными фамилиями('Багашвили-Багаев Артем Викторович'), и есть редкие фамилии ('Ырлгай', 'Аксаков' и тп.)?

Пытался использовать библиотеки natasha и yangy, но наташа не находит все варианты, а yangy либо не находит, любо я не смог нормально настроить.

Вопрос задан более двух лет назад
2020 просмотров

2 комментария

Подписаться 2 Средний 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 3

2 комментария

WbICHA @WblCHA

У нас сейчас есть ChatGPT и ему, думаю, вполне можно скидывать наборы имён, чтобы он вычеркивал те, которые вряд ли именами являются.

Более того, он сам способен находить ФИО в тексте. Сейчас проверил на тексте автора, нашёл всё.

spoiler
найди все фио в следующем тексте:
```Как можно достать ФИО из текста(текста могут быть абсолютно разными и не иметь ничего общего), учитывая что ФИО всегда в формате 'Фамилия Имя Отчество', но в нем могут быть ошибки либо неправильный регистр, например: 'Кравец арртем вячеславович', 'морозова ЕЛЕНа викторовна' и тп, а также встречаются ФИО с двойными фамилиями('Багашвили-Багаев Артем Викторович'), и есть редкие фамилии ('Ырлгай', 'Аксаков' и тп.)?```

В предоставленном тексте выделены следующие строки, предполагая, что они могут содержать ФИО:

1. 'Кравец арртем вячеславович'
2. 'морозова ЕЛЕНа викторовна'
3. 'Багашвили-Багаев Артем Викторович'
4. 'Ырлгай'
5. 'Аксаков'

Обратите внимание, что в некоторых ФИО были обнаружены опечатки, такие как 'арртем' и 'ЕЛЕНа'. Это может потребовать дополнительной обработки для коррекции ошибок, например, приведение к правильному регистру.

Написано более двух лет назад
mayton2019 @mayton2019

В таких задачах - самая большая проблема - это просто договориться с самим собой что мы делаем и что точно не делаем. Опечатки? Ну и хрен с ними. Они всегда были и будут. И текстовый источник - всегда был самый ненадежный. Вот автор пишет natasha и yangy. Ну пускай их соединит в конвейер. Сначала первый отработат. Как фильтр заберет имен по максимуму. Потом второй - заберет те имена который первый пропустил. И все пишем в табличку в БД. И третий этап - это списки исключений. Редкие слова. Китайские. И прочие символы как в телеграме сейчас регает. Символы-смайличи и черт-знает-что.

И тесты, тесты, тесты.

Короче - время начинать. Все уже обсудили.

Написано более двух лет назад

Комментировать

7 комментариев

pulivilizator @pulivilizator Автор вопроса

Окончаний ведь огромное количество у разных народов, придется все их учитывать тогда, разве нет?

Написано более двух лет назад
WbICHA @WblCHA

pulivilizator, разве? "-вна" и "-вич" же.

Написано более двух лет назад
WbICHA @WblCHA

pulivilizator, хотя нет, на вики вариантов чуть больше: -ович/-евич/-ич, -овна/-евна/-ична/-инична. Но это всё равно небольшой список.

Написано более двух лет назад
mayton2019 @mayton2019

pulivilizator, это типичная задача на Fuzzy logic. В ней не будет библиотеки или сервиса который на 100% закроет все кейсы. Попробуй закрыть 99.9% а оставшиеся редкие исключения добей вручную.

Написано более двух лет назад
Rsa97 @Rsa97

pulivilizator, Если брать разные народы, то будут те, у кого нет фамилии и/или отчества. Будут те, у кого несколько имён и/или несколько фамилий. Будут те, у кого отчество записывается перед именем. Возможно, попадутся те, у кого вместо фамилии дедчество или вместо отчества матчество.

Написано более двух лет назад
Ян @Buchachalo

Rsa97, А что при дедчестве или матчестве будет отличатся для алгоритма который ищет по окончаниям?

Написано более двух лет назад
Rsa97 @Rsa97

Ян, Матчество для поиска ничем не отличается, а вот дедчество может использоваться вместо фамилии, но пишется, при этом, в конце. Пётр Сидорович Иванович.

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- вчера
- 133 просмотра
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 93 просмотра
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 109 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 369 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 241 просмотр
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 676 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 554 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 309 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 574 просмотра
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 229 просмотров
2

ответа
Показать ещё Загружается…

ChatGPT вполне справится. Вопрос объёмов и цены вопроса.
Я Наташу (natasha) использовал как-то для разбора текста договора, оно четко отлавливало ФИО, должности, наименования предприятий, возвращало с учетом падежей.

Но иногда, 1 на полсотни, косячило с каким-либо ФИО. Например, видело имя и отчество, не видело фамилии.

Answer 1 · 2023-11-22 09:20:47

Dmitry Bay @kawabanga

Я бы апи дернул, к примеру у дадаты - 15коп за запрос стандартизации.

Ответ написан более двух лет назад

1 комментарий

Answer 2 · 2023-11-21 23:27:33

В общем случае эта задача не решается на 100% по определению.
Вы говорите, что вокруг фамилий у вас произвольный текст, а это значит, что среди этого текста попадаются слова, которые чем-то похожи на ФИО, но не ФИО, или имя отчество, без фамилии, или что-то вроде "светкин василёк Игоревич". Можно это считать таким экзотическим ФИО, или отчество тут просто отдельно стоит и искать его не надо?
В любом случае схема решения примерно такая. Если у вас есть знаки препинания, то можно разбить по ним фрагменты текста, ФИО не разделяется знаками препинания (кроме дефиса), но дефис отличается от тире пробелами по бокам.
Далее у вас есть цепочки слов. Если в цепочке N слов, то в ней, можно сказать, N-2 кандидата на ФИО.
Каждая трока-кандидат на ФИО может быть проклассифицирована по ряду признаков, свидетельствующих в пользу того, является ли эта тройка ФИО. Осталось только определить набор признаков и веса этих признаков. Каждый признак определяет два показателя: 1) насколько этот признак добавляет шансов тройке быть ФИО; 2) на сколько несовпадение по этому признаку отнимает шансов быть ФИО. Показатели определяются от нуля до 1 и перемножаются. Подбор признаков и их показателей будет настройкой вашего классификатора.
Тут дальше можно двигаться разными путями.
Часть детектов вы сможете надёжно определять по окончанию отчества.
Часть признаков у вас будут словарными словами, которые, по вашему, не могут быть именем и\или фамилией.
На этом этапе уже будет довольно хорошая детекция. Вопрос что вам важнее, отсутствие false positive, или отсутствие false negative.
Так же по-разному может повезти с входными данными. Если у вас много "ловушек" в виде разбросанных по тексту бесхозных отчеств, если у вас много очень странных имён... в общем тут вам никто не выдаст идеальное решение. При отсутствии четкого ТЗ результатом будет расплывчатое ХЗ.
В целом обычно на настройку таких классификаторов под текст на первое время сажают людей. У нас сейчас есть ChatGPT и ему, думаю, вполне можно скидывать наборы имён, чтобы он вычеркивал те, которые вряд ли именами являются. Если вы приняли, что какое-то слово не может являться именем, или фамилией, то такое решение хорошо бы кэшировать, а затем для консистентности придерживаться аналогичного в других случаях.

Странная у вас задача, сударь. Выглядит как учебная. В этом случае рассуждений вроде приведенных мной здесь хватило бы для успешного ответа на собеседовании.

Answer 3 · 2023-11-22 18:58:59

Dimonchik @dimonchik2013

non progredi est regredi

https://habr.com/ru/articles/547472/
https://habr.com/ru/companies/yandex/articles/219311/

правда не питон но о задаче

Ответ написан более двух лет назад

Комментировать

Answer 4 · 2023-11-21 22:19:25

Можно попробовать автоматизировать сбор фамилий и отчеств. У них вроде регулярные окончания.
А между ними - соотв. будет имя.

Как вычленить из текста ФИО на python, при том что конкретных шаблонов нет?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт