Что почитать об алгоритмах нормализации слов?

Question

Mercury13 @Mercury13

Программист на «си с крестами» и не только

Что почитать об алгоритмах нормализации слов?

Хочу для слова вытащить все возможные начальные формы. То есть, для многострадальной «дочери генерала» должно быть «дочерить» (глагол), «дочерь» (существительное), «генерать» (глагол), «генерал» (существительное), ну и, так и быть, «дочь», если всё-таки в программе есть список «неправильных» слов.

1. Где про это прочитать?
2. Как лучше формализовать все эти правила в файлах данных (XML или подобных)?
3. Есть ли где-то корпус русских слов с указанием частей речи и всех форм?

Вопрос задан более трёх лет назад
5066 просмотров

Комментировать

Подписаться 17 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 306 просмотров
0

ответов
Машинный перевод с одного языка на другой

+1 ещё

Сложный
Кто писал собственный NLP-пайплайн перевода слов?
- 1 подписчик
- 19 мая
- 88 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Где найти мне датасет для обучения малюсенькой LLM?
- 2 подписчика
- 07 апр.
- 245 просмотров
1

ответ
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 383 просмотра
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 217 просмотров
1

ответ
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 274 просмотра
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 425 просмотров
1

ответ
Машинное обучение

+1 ещё

Средний
Может, у кого-то есть дампы с реальными наименованиями товаров/услуг и кодами ОКПД2 для обучения NLP-модели?
- 1 подписчик
- 16 янв.
- 136 просмотров
0

ответов
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт. 2025
- 401 просмотр
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт. 2025
- 293 просмотра
2

ответа
Показать ещё Загружается…

Answer 1 · 2014-03-14 04:06:53

Для русского языка есть несколько вариантов часть из них только получение базовой формы, часть выдает помимо базовой формы еще и какая это часть речи:
По пунктам от самого простого к сложному, и я не в курсе работают ли эти инструменты под windows, сам я использую osx и linux

1) Инструменты стеммеры - stemmer, обрезают слово выдирая из него по некоторым правилам то что они принимают за - окончания, суффиксы, приставки.
Лично мне очень нравится стеммер для русского языка из пакета https://github.com/NaturalNode/natural
Тут простой код для понимания как работает стеммер https://github.com/NaturalNode/natural/blob/master...
Достоинства стеммеров: очень быстрые, подходят для предварительного анализа в 100% случаев
Недостатки: базовая словоформа периодами весьма далека от реальной базовой словоформы

==========================================================
2) использовать aspell - линуксовый пакет для проверки орфографии
пример echo ехала криса на велосипеде | aspell -a -d russian --sug-mode=ultra
вывод:

+ ехать
& криса 13 6: киса, риса, ириса, краса
*
+ велосипед
Достоинства: большой набор словарей, можно добавлять свои, есть suggestion mode - выдает похожие слова на слова написанные с ошибкой и/или отсутствующие в словаре см выше & криса 13 6: киса, риса, ириса, краса
Недостатки: медленный, не говорит какая часть речи

======================================================
3) Лучший в номинации TreeTagger www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/#Linux

пример: echo 'баба сеяла горох' | cmd/tree-tagger-russian
вывод:
баба Ncfsny
сеяла Vmis-sfa-e
горох Ncmsan
разшифровка записей вида Ncfsny тут corpus.leeds.ac.uk/mocky/msd-ru.html
то есть помимо того какая это часть речи и базовой словоформы эта штука еще и выдает кучу дополнительной информации - от падежей и до ....
Достоинства: великолепен!, определяет часть речи даже если не имеет слова в словаре
Недостатки: части речи то он определяет а вот с базовой словоформой невсегда, приходится использовать в паре с aspell или стеммером. Самый медленный.

========================================================
Есть еще какие то продукты от яндекса https://company.yandex.ru/technologies/mystem/
я не пользовался.

Удачи!

Что почитать об алгоритмах нормализации слов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт