Какие существуют методы извлечения Фамилии Имени Отчества из текста?

Question

Федор Малышкин @fedor_malyshkin

Какие существуют методы извлечения Фамилии Имени Отчества из текста?

Какие существуют методы извлечения Фамилии Имени Отчества из текста?
Сложно конечно предположить наличиие какого-либо универсального алгоритма, скорее интересуют практические наработки и статьи, дающее представление о направлениях в каких можно двигаться.
Интересуют возможности выделения ФИО в формате "Путин В.В./Путин Владминир Владимирович/Владминир Владимирович" (в разных падежах) и т.д.

Вопрос задан более трёх лет назад
9100 просмотров

1 комментарий

Подписаться 6 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 2

4 комментария

Федор Малышкин @fedor_malyshkin Автор вопроса

"словарю имен, фамилий и отчеств". Есть такие?

Написано более трёх лет назад
xmoonlight @xmoonlight

fedor_malyshkin: все есть... рыскать нада...)

Написано более трёх лет назад
to_climb @to_climb

Не троллинга ради, но пользы для (экзотика, но может быть и актуально):
Салтыков-Щедрин
О'Генри (кстати, а какой символ для апострофа нравится именно вам)
Мак-Дональд
Бердымухамедов, Гурбангулы Мяликгулыевич

Написано более трёх лет назад
xmoonlight @xmoonlight

to_climb: все верно, аппетит приходит по мере получения удовольствия от процесса. Кому нужно - сделают все это однозначно.

Написано более трёх лет назад

Комментировать

Пригласить эксперта

Ответы на вопрос 5

1 комментарий

Комментировать

2 комментария

Федор Малышкин @fedor_malyshkin Автор вопроса

Минус указанного решения даже не в деньгах (цена допустима), а в том, что решение является черным ящиком, сложно встраиваемым в создаваемый продукт. Вопрос задавался с целью: после ознакомления реализовать данный функционал.

Написано более трёх лет назад
to_climb @to_climb

fedor_malyshkin: Чёрный ящик - это не всегда плохо (иначе направления SDK-продуктов не существовало бы:). Как минимум, стоит сравнить известные готовые решения по таким параметрам, как точность, цена, время внедрения.

Поставленная задача не имеет готового (даже теоретического) решения, несмотря на то, что она очень востребована (конференция на эту тему: nlp.cs.rpi.edu/kbp/2014/elreading.html). Т.е. с ходу и на коленке хорошо (идеально) не решается. Но попробовать интересно, да :)
Материалов я немного накидал, желаю удачи! :)
P.S. Если найдётся хороший общедоступный список имён/фамилий/отчеств - поделитесь, pls, с сообществом.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программирование

+4 ещё

Простой
На сколько плох мой GitHub?
- 1 подписчик
- 03 июл.
- 813 просмотров
2

ответа
Программирование

+2 ещё

Средний
Поможете собрать компьютер для запуска виртуальных машин и коддинга?
- 1 подписчик
- 02 июл.
- 570 просмотров
5

ответов
Программирование

+4 ещё

Сложный
Что делать, на QEMU всё летает, а реальный Celeron D умирает?
- 2 подписчика
- 01 июл.
- 643 просмотра
1

ответ
Карьера в IT

+1 ещё

Средний
Хочу попробовать стать системным аналитиком, с чего лучше начать и во сколько попытаться найти работу?
- 5 подписчиков
- 25 июн.
- 938 просмотров
6

ответов
Программирование

+4 ещё

Простой
Выбор между изучением c++ и Golang, что изучать?
- 3 подписчика
- 09 июн.
- 1354 просмотра
10

ответов
Информационная безопасность

+3 ещё

Простой
Утечка кейвордов в Телеграм при посещении постороннего сайта?
- 3 подписчика
- 03 июн.
- 315 просмотров
3

ответа
Программирование

Простой
Как создать и использовать свою кодировку знаков?
- 1 подписчик
- 02 июн.
- 728 просмотров
4

ответа
IT-образование

+2 ещё

Средний
Бизнес и системный аналитик: кто это?
- 2 подписчика
- 29 мая
- 408 просмотров
3

ответа
Машинный перевод с одного языка на другой

+1 ещё

Сложный
Кто писал собственный NLP-пайплайн перевода слов?
- 1 подписчик
- 19 мая
- 88 просмотров
2

ответа
Программирование

+1 ещё

Простой
Проект для программирования?
- 2 подписчика
- 27 апр.
- 879 просмотров
9

ответов
Показать ещё Загружается…

Теорию (если интересно) можно поискать по словосочетаниям Named Entity Recognition (and Classification), NER, NERC. Более-менее стандартный подход на соревнованиях по этой теме: словари + машинное обучение.

Answer 1 · 2015-12-29 21:59:54

ну вот сходу шаблон для написания regexp:
1. два или три слова (разделитель: не буква или цифра (или несколько))
2. все 1-е буквы - заглавные,
3. минимум одно слово - состоит НЕ из 1 буквы.
4. если слово из 1-й буквы - следующий символ обязательно: "." (точка)
5 расстояние Левенштейна по словарю имен, фамилий и отчеств (через их сочетания).

Answer 2 · 2015-01-01 22:42:26

Отбой. Если кому интересно Яндекс некоторое время назад опубликовал исходные тексты tomita парсера (github.com/yandex/tomita-parser). Надо признать кода очень много и изучить его работы изнутри будет достаточно интересно, но касательно заданного вопроса вывод такой: используются данные из mystem и достаточно большое кол-во правил (код на C++).

Answer 3 · 2015-12-30 11:29:26

Сергей @begemot_sun

Программист в душе.

Попробуйте томита-парсер от Яндекса.

Ответ написан более трёх лет назад

1 комментарий

Answer 4 · 2015-12-29 22:31:45

Гугл работает над семантическим поиском, там каждому имени и фимилии присвоен отдельный крякозябр (/m/05qt0" - Politics, Путин есть на русском и даже Мизулина ) с чёрточками (ну и остальным словам, уже поиск работает, у меня тодже по нескольким выражениям), по английскому запросто а по русски там мало слов. v3 это типо там надо искать. Лет через 10 такой проблемы наверное не возникнет.

Answer 5 · 2015-12-29 22:57:20

Должны существовать корпуса со списком всех имён/фамилий/отчеств. Как минимум, можно автоматически выбрать из википедии или dbpedia (структурированные данные из википедии).

1. Находим корпуса или формируем свой.
2. Делаем поиск на совпадение хотя бы с одним словом (лучше, на частичное совпадени — на случай опечаток и всяких склонений).
3. Когда находим, выделяем окрестность слова (пара слов влево-вправо) и анализируем его эвристиками.

Answer 6 · 2015-12-30 23:32:51

Если задача серьёзная (не хобби), то раз упомянули томиту, упомяну и такую молотилку текстов: ABBYY Tagger. Словари и правила в комплекте. Но вариант не бюджетный.

Answer 7 · 2015-04-26 15:53:42

Это называется задача распознавания именованных сущностей (named entity recognition). В вашем случае имен персон. Наш продукт Textocat API умеет это делать: убедитесь в этом сами на странице демо для русского языка или получите бесплатный ключ к API после регистрации на нашем сайте.

Какие существуют методы извлечения Фамилии Имени Отчества из текста?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт