Как находить исходное однокоренное слово без суффикса?

Question

Вадим @vshemarov

Как находить исходное однокоренное слово без суффикса?

Например, для слова "облачко" это будет "облако", для "собачка" - "собака" (интересуют только имена существительные)

Т.е. это не поиск словоформ, а поиск исходных однокоренных слов. В идеале хорошо бы найти бы готовую библиотеку на php, но даже не надеюсь на это. Но, возможно, есть какие-то четкие алгоритмы, которые дают нужный результат?

Вопрос задан более трёх лет назад
228 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

8 комментариев

Вадим @vshemarov Автор вопроса

Увы, не то. Это стемминг - отсечение окончания от слова, такое я знаю и умею. Тут из "облако" получим "облак", а из "облачко" - "облачк", т.е. программно я не пойму, что это однокоренные слова, и что для слова "облачко" исходным является "облако"

Написано более трёх лет назад
mayton2019 @mayton2019

Вадим, да это стемминг это компромисс между справочником и кодом.
Если найдешь другой метод лучше - поделись.

Написано более трёх лет назад
mayton2019 @mayton2019

Dr. Bacon, мда. Интересно. Я гляну из чего состоит Сфинкс изнутри.

Написано более трёх лет назад
Вадим @vshemarov Автор вопроса

Dr. Bacon Вы путаете морфологический разбор со словообразовательным. Словари по ссылкам - это приведение слова к его инфинитиву, т.е. если я задам "облачком", то с учетом морфологии получу "облачко", но не получу "облако". Или, например, "дом", "домик", "домишко", "домище" - это в таких словарях разные слова, а мне надо, чтоб все они были приведены к слову "дом" - именно это слово является для них исходным

Написано более трёх лет назад
Вадим @vshemarov Автор вопроса

mayton2019 если нужно для полнотекстового поиска, то, во-первых, есть библиотеки по стеммизации на разных платформах. Но по моему опыту - не лучший вариант, не знаю, как в других языках, но в русском нередко разные слова дают одинаковые стеммы, поэтому лучше использовать леммизацию. Или готовые движки, как выше советуют. Только я бы не Sphinx советовал, а https://manticoresearch.com/

Написано более трёх лет назад
mayton2019 @mayton2019

Вадим, ОК спасибо.

Написано более трёх лет назад
mayton2019 @mayton2019

Dr. Bacon, а чем можно просмотреть этот ресурс (pak) sphinxsearch.com/downloads/dicts в каком-то текстовом представлении?

Написано более трёх лет назад
mayton2019 @mayton2019
Dr. Bacon, а я понял. Латинска буква через слеш - это возможные окончания.

Абакан/J Абеба/H Абиджан/J Абиссиния/H

и справочник суффиксов окончаний

SFX J Y 23 SFX J 0 а [^ейоь] SFX J 0 у [^ейоь]

Еще осталось угадать что за число стоит.
Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 332 просмотра
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 195 просмотров
1

ответ
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 251 просмотр
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 405 просмотров
1

ответ
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт. 2025
- 383 просмотра
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт. 2025
- 272 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 238 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт. 2025
- 219 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт. 2025
- 371 просмотр
1

ответ
Алгоритмы

+1 ещё

Простой
Как отконвертировать 3D-меш в наклонные треугольники?
- 2 подписчика
- 02 окт. 2025
- 206 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2023-01-27 19:44:04

Насчет корней не знаю. Есть алгоритм Snowball https://snowballstem.org/demo.html#Russian
Он делает примерно то что нужно. Например сводит облако-облак. Сводит разные слова к основе.
А то что не смог свести ты можешь попробовать сам дописать в справочник или добавить свои суффиксы.

И у него есть несколько готовых реализаций на C#/Java. Я думаю что кто-то уже делал реализацию для PHP.

Как находить исходное однокоренное слово без суффикса?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт