Поиск ключевых слов внутри предложения. Кто-нибудь занимался детально?

Question

mezhduprochim @mezhduprochim

Метаданные

Поиск ключевых слов внутри предложения. Кто-нибудь занимался детально?

Было бы очень интересно услышать людей и получить квалифицированные

комментарии по следующему вопросу:

Есть большой массив входящего текста (русскоязычного и англоязычного),

разбитого по предложениям. После обработки текста на выходе необходимо

получить максимально качественные с точки зрения человека теги(ключевые слова)

для данного предложения.

Как пример,

Input: «Мой дядя самых честных правил, когда не в шутку занемог...»

Output: [дядя],[занемог]

Тематика наверняка имеет бесконечную область для развития и обсуждения,

поэтому особо интересны следующие моменты:

— наиболее успешные/перспективные теоритические подходы и направления

— эффективные «открытые» инструменты/алгоритмы, доступные в персональных изысканиях.

Вопрос задан более трёх лет назад
10000 просмотров

2 комментария

Подписаться 5 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 5

3 комментария

mezhduprochim @mezhduprochim Автор вопроса

TF-IDF и релевантность основанная на частоте данного слова в большом тексте — это немного другое.
Здесь анализ происходит внутри замкнутного предложения, в котором ключевые слова в большинстве случаев единичны.

Да и, кроме собственно вопроса, интересно было бы узнать людей, которые в подобных
вещах продвинулись.

Написано более трёх лет назад
Juggler @Juggler

Мне кажется, частота и релевантность особой роли не играют — тут вполне работает поиск по тексту с учетом морфологии, и теги не нужны совсем. По сути тег — это способ объединения по смыслу, то есть обобщение. Соответственно, нужно пользоваться словарем обобщений для подстановки тега — список понятий -> обобщение.

Написано более трёх лет назад
mezhduprochim @mezhduprochim Автор вопроса

Как точно заметил denver — в этом конкретном вопросе у тегов проявляется только его внутренняя составляющая — «краткое описание чего-то более большого». Внешняя составляющая — «поиск и объединение разнородных элементов» — не важна.

Написано более трёх лет назад

3 комментария

mezhduprochim @mezhduprochim Автор вопроса

Яндексу — несомненно огромное спасибо за столь хороший инструмент. Но как раз с морфологией проблем возникает немного.

А вот с «Подлежащим» и «Сказуемым» — направление правильное, но и эффективная автоматизация «синтаксиса языка» задача вроде как совсем не простая.

Лично я для себя рассматриваю «предложение» как сцену, на которой есть:
— главные действующие лица (часто это как раз — «подлежащее»)
— вспомогательные/второстепенные объекты («обстоятельства, дополнения»)
— действия/связи (часто — «сказуемые»)

Можно, с большой степенью уверенности, говорить о разном весе каждого типа для генерации «ключевых слов», но создание эффективного алгоритма для разложения «сцены» на кирпичики задача совсем не тривиальная — собственно это и есть основная задача данного вопроса.

Я приведу еще один «простой» пример, чтобы все было чуть понятнее:
«Собака сцепилась с кошкой во дворе дома»

— Если попытаться описать это «предложение» одним ключевым словом — например, [Собака], это уже что-то,
но этого будет явно не достаточно.

— Если ключевые слова описывают все действующие лица сцены — [Собака],[Кошка] — то массив ключевых слов становится куда более качественным при минимальном их количестве.

— Можно идти и дальше и добавить связующее элементы — [Собака],[Кошка],[Сцепились] — а можно посчитать что это «дорого» для системы, и не идти. Вопрос минимального/оптимального количества ключевых слов тоже не такой простой.

Написано более трёх лет назад
Kindman @Kindman

Можно опять-каки воспользоваться MYSTEM, переключив его в режим «грамматики».
Запустив MYSTEM с параметром -nig для второго примера, получаем:

собака{собака=S, жен, од=им, ед}
сцепилась{сцепляться=V=прош, ед, изъяв, жен, сов}
с{с=PR=}
кошкой{кошка=S, жен, неод=твор, ед|кошка=S, жен, од=твор, ед}
во{во=INTJ=|во=PR=|во=PART=}
дворе{двор=S, муж, неод=пр, ед}
дома{дом=S, муж, неод=(им, мн|род, ед|вин, мн)|дома=ADV=}

где S — существительное, V — глагол.

По этой выдаче с высокой долей вероятности можно провести и синтаксический разбор:
Подлежащее определим как существительное в именительном падеже.
Сказуемое — как глагол.

Написано более трёх лет назад
mezhduprochim @mezhduprochim Автор вопроса

Повторюсь MYSTEM — хорошая штука. Но одних словарей — явно не достаточно, чтобы
создать эффективный инструмент.

Возвращаясь, к кошке с собакой.

Допустим мы задаемся вопросом — «как бы выделить главных действующих лиц»:

1) Например, обозначив их существительным в именительном падеже, но у вас
тут же возникнут другие вопросы:
— почему «кошка» в творительном падеже не менее значима, чем собака в именительном
— чем существительное «двор» хуже существительных «кошка» и «собака»

2) Можно, пойти дальше — и сказать что одушевленные существительные «кошка» и «собака»
важнее не одушевленных — «двор»:
— здесь может быть и да.
А если предложение будет чуть-чуть другим:
«Собака сцепилась с кошкой во дворе известного исторического дома»
— акценты уже изменились и одним из главных дествующих лиц стал неодушевленный «известный дом»

3) Еще лучше будет работать — если существительные разделять на определенные и не определенные (примерно как в английском языке — с артиклем «the», и «a»). Определенные гораздо чаще играют
роль главных действующих лиц.

4) Но все это — только начало. И если вы хотите двигаться дальше, вам приходится менять подходы.

Еще один пример:
«Собака сцепилась с кошкой, так что клочья летили в разные стороны»

Так вот, самым эффективным в этом варианте окажется именно
производное от сказуемого «сцепились» — [драка]. А «кошка» с «собакой»
чуть-чуть да ушли на второй план.

«Прилагательное, существительное, глагол», «Падежи, одушевленность, определенность»
и даже сложные разделения на «Подлежащее, сказуемое, обстоятельство и дополнение»
— все это не позволяет определять суть с высокой точностью.

Я повторюсь: «предложение» как сцена — элементы которой связаны между собой,
и нужно найти не столько вес каждого элемента в отдельности, сколько вес
с учетом всех его связей в общей картине предложения.

Написано более трёх лет назад

3 комментария

mezhduprochim @mezhduprochim Автор вопроса

В этом и есть вся затея(задача) — «Научиться наиболее эффективно находить ключевые слова в бесконечном наборе произвольных предложений.

Написано более трёх лет назад
Михаил Лялин @mr_jok

задача некорректна — ключевые слова по предложениям вне текста — особого смысла не имеют

Написано более трёх лет назад
mezhduprochim @mezhduprochim Автор вопроса

Смысл вроде как имеет — и даже не малый.
Эффективное решение этого вопроса можно использовать в различных прикладных моментах.
Как самый простой пример, у Яндекса — этот вопрос один из элементов его хорошего поиска.

Вообще, если интересно, www.aot.ru/technology.html — у них очень подробно и интересно написано
про вяские «плюшки» связанные c анализом русского языка и как они ко всему этому подходят.

Написано более трёх лет назад

4 комментария

mezhduprochim @mezhduprochim Автор вопроса

Голова (а лучше во множественном числе). А вот принципы авторефератов (многие из которых основаны на количестве повторенний) — здесь не работают.

Сама задача несомненно имеет решение:

например,
одно из простых решений, когда нужен единичный массив ключевых слов для русского языка — первое существительное в предложении . Кстати, для «Моего дяди самых честных правил, который не в шутку занемог» — на выходе получите вполне разумное [дядя].

Но когда начинаешь касаться этой темы детально, то понимаешь что разнообразию, стремлению к эффективности и гибкости решений — нет предела.

Написано более трёх лет назад
Михаил Лялин @mr_jok

1) зависит от системы авторефератов
2) для конкретного примера — можно родственник, болезнь, цинизм

www.speakrus.ru/articles/uncle1.htm

Написано более трёх лет назад
mezhduprochim @mezhduprochim Автор вопроса

Я не встречал открытых систем авторефератов заточенных на работу с одним «предложением» отделенным от основной массы. Большинство из них работает с большими объема текста. Здесь же суть вопроса сосредаточенна внутри предложения.

Написано более трёх лет назад
Михаил Лялин @mr_jok

тогда только голова — я бы ориентировался не на слова из предложения, а на их обобщающие синонимы (дядя — родственник, занемог — болезнь, честных правил — м.б., циник)

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Метаданные

+1 ещё

Средний
Как массово прописать теги/комментарии к видео в Windows?
- 1 подписчик
- 08 сент. 2025
- 52 просмотра
0

ответов
CSS

+2 ещё

Простой
Не работает css в visual studion?
- 1 подписчик
- более года назад
- 136 просмотров
1

ответ
1С-Битрикс

+1 ещё

Простой
Как в Битрикс сформировать динамические мета инфоблока в разделе SEO, используя код в настройках инфоблока?
- 1 подписчик
- более года назад
- 135 просмотров
1

ответ
WordPress

+1 ещё

Простой
Как скрыть мета тег author на wordpress?
- 2 подписчика
- более года назад
- 157 просмотров
1

ответ
1С-Битрикс

+1 ещё

Простой
Как изменить источник meta в 1С Битрикс?
- 1 подписчик
- более года назад
- 112 просмотров
0

ответов
Google

+1 ещё

Простой
GTM триггер — как создать условие Title страницы содержит?
- 1 подписчик
- более года назад
- 41 просмотр
0

ответов
Автоматизация

+2 ещё

Простой
Как правильно внедрить RFID-метки на складе для автоматизации складских процессов?
- 1 подписчик
- более двух лет назад
- 159 просмотров
1

ответ
WordPress

+1 ещё

Средний
Как сделать поиск по мета-полю в обычном поиске в админ-панели WordPress?
- 1 подписчик
- более двух лет назад
- 41 просмотр
0

ответов
Метаданные

Сложный
Можно ли подделать метаданные в RAW файлах? Автор, камера, дата и другие. Если да, то как выявить подделку?
- 2 подписчика
- более двух лет назад
- 610 просмотров
3

ответа
WordPress

+1 ещё

Средний
Как вывести нужные мне теги в любом месте?
- 1 подписчик
- более трёх лет назад
- 67 просмотров
1

ответ
Показать ещё Загружается…

Это наверное больше ключевые слова. Тэги в частности.

Кстати, интересно, а уж тогда не так? :)
Input: «Мой дядя самых честных правил, когда не в шутку занемог...»
Output: [родстенники],[болезнь],[честные правила], [пушкин]
Небольшое дополнение:
Пространство аналитики замкнуто пространством предложения
(с возможностью использования стандартизированных ограниченных словарей)

Answer 1 · 2011-06-22 14:57:29

Этот вопрос волнует многих. Начните с вики (http://ru.wikipedia.org/wiki/TF-IDF), отполируйте гуглом до готовности.

Answer 2 · 2011-06-22 18:34:38

Судя по примеру, приведенному автором вопроса, достаточно лишь выделить ПОДЛЕЖАЩЕЕ и СКАЗУЕМОЕ в исходном предложении.
В Яндексе есть готовый бесплатный инструмент MYSTEM.EXE для морфологического анализа предложений на русском языке.
[http://company.yandex.ru/technology/mystem]
если запустить без параметров для данного примера, то выдаст:
мой{мой|мыть}дядя{дядя}самых{самый}честных{честной|честный}правил{правило|править}когда{когда}не{не}в{в}шутку{шутка}занемог{занемогать}

Answer 3 · 2011-06-23 01:06:14

Как вариант — поэкспериментировать, посчитав самые часто употребляемые слова в статистике Яндекса wordstat.yandex.ru/?. Должно быть несколько факторов…

Не знаю цели вашей затеи, но мне почему-то кажется, что ключевые слова для каждого предложения — это чересчур. Почему не по абзацам?