Комментарии пользователя mezhduprochim

Поиск ключевых слов внутри предложения. Кто-нибудь занимался детально?

mezhduprochim @mezhduprochim Автор вопроса

Смысл вроде как имеет — и даже не малый.
Эффективное решение этого вопроса можно использовать в различных прикладных моментах.
Как самый простой пример, у Яндекса — этот вопрос один из элементов его хорошего поиска.

Вообще, если интересно, www.aot.ru/technology.html — у них очень подробно и интересно написано
про вяские «плюшки» связанные c анализом русского языка и как они ко всему этому подходят.

Написано более трёх лет назад

Поиск ключевых слов внутри предложения. Кто-нибудь занимался детально?

mezhduprochim @mezhduprochim Автор вопроса

Я не встречал открытых систем авторефератов заточенных на работу с одним «предложением» отделенным от основной массы. Большинство из них работает с большими объема текста. Здесь же суть вопроса сосредаточенна внутри предложения.

Написано более трёх лет назад

Поиск ключевых слов внутри предложения. Кто-нибудь занимался детально?

mezhduprochim @mezhduprochim Автор вопроса

В этом и есть вся затея(задача) — «Научиться наиболее эффективно находить ключевые слова в бесконечном наборе произвольных предложений.

Написано более трёх лет назад

Поиск ключевых слов внутри предложения. Кто-нибудь занимался детально?

mezhduprochim @mezhduprochim Автор вопроса

Повторюсь MYSTEM — хорошая штука. Но одних словарей — явно не достаточно, чтобы
создать эффективный инструмент.

Возвращаясь, к кошке с собакой.

Допустим мы задаемся вопросом — «как бы выделить главных действующих лиц»:

1) Например, обозначив их существительным в именительном падеже, но у вас
тут же возникнут другие вопросы:
— почему «кошка» в творительном падеже не менее значима, чем собака в именительном
— чем существительное «двор» хуже существительных «кошка» и «собака»

2) Можно, пойти дальше — и сказать что одушевленные существительные «кошка» и «собака»
важнее не одушевленных — «двор»:
— здесь может быть и да.
А если предложение будет чуть-чуть другим:
«Собака сцепилась с кошкой во дворе известного исторического дома»
— акценты уже изменились и одним из главных дествующих лиц стал неодушевленный «известный дом»

3) Еще лучше будет работать — если существительные разделять на определенные и не определенные (примерно как в английском языке — с артиклем «the», и «a»). Определенные гораздо чаще играют
роль главных действующих лиц.

4) Но все это — только начало. И если вы хотите двигаться дальше, вам приходится менять подходы.

Еще один пример:
«Собака сцепилась с кошкой, так что клочья летили в разные стороны»

Так вот, самым эффективным в этом варианте окажется именно
производное от сказуемого «сцепились» — [драка]. А «кошка» с «собакой»
чуть-чуть да ушли на второй план.

«Прилагательное, существительное, глагол», «Падежи, одушевленность, определенность»
и даже сложные разделения на «Подлежащее, сказуемое, обстоятельство и дополнение»
— все это не позволяет определять суть с высокой точностью.

Я повторюсь: «предложение» как сцена — элементы которой связаны между собой,
и нужно найти не столько вес каждого элемента в отдельности, сколько вес
с учетом всех его связей в общей картине предложения.

Написано более трёх лет назад

Поиск ключевых слов внутри предложения. Кто-нибудь занимался детально?

mezhduprochim @mezhduprochim Автор вопроса

Яндексу — несомненно огромное спасибо за столь хороший инструмент. Но как раз с морфологией проблем возникает немного.

А вот с «Подлежащим» и «Сказуемым» — направление правильное, но и эффективная автоматизация «синтаксиса языка» задача вроде как совсем не простая.

Лично я для себя рассматриваю «предложение» как сцену, на которой есть:
— главные действующие лица (часто это как раз — «подлежащее»)
— вспомогательные/второстепенные объекты («обстоятельства, дополнения»)
— действия/связи (часто — «сказуемые»)

Можно, с большой степенью уверенности, говорить о разном весе каждого типа для генерации «ключевых слов», но создание эффективного алгоритма для разложения «сцены» на кирпичики задача совсем не тривиальная — собственно это и есть основная задача данного вопроса.

Я приведу еще один «простой» пример, чтобы все было чуть понятнее:
«Собака сцепилась с кошкой во дворе дома»

— Если попытаться описать это «предложение» одним ключевым словом — например, [Собака], это уже что-то,
но этого будет явно не достаточно.

— Если ключевые слова описывают все действующие лица сцены — [Собака],[Кошка] — то массив ключевых слов становится куда более качественным при минимальном их количестве.

— Можно идти и дальше и добавить связующее элементы — [Собака],[Кошка],[Сцепились] — а можно посчитать что это «дорого» для системы, и не идти. Вопрос минимального/оптимального количества ключевых слов тоже не такой простой.

Написано более трёх лет назад

Поиск ключевых слов внутри предложения. Кто-нибудь занимался детально?

mezhduprochim @mezhduprochim Автор вопроса

Голова (а лучше во множественном числе). А вот принципы авторефератов (многие из которых основаны на количестве повторенний) — здесь не работают.

Сама задача несомненно имеет решение:

например,
одно из простых решений, когда нужен единичный массив ключевых слов для русского языка — первое существительное в предложении . Кстати, для «Моего дяди самых честных правил, который не в шутку занемог» — на выходе получите вполне разумное [дядя].

Но когда начинаешь касаться этой темы детально, то понимаешь что разнообразию, стремлению к эффективности и гибкости решений — нет предела.

Написано более трёх лет назад

Поиск ключевых слов внутри предложения. Кто-нибудь занимался детально?

mezhduprochim @mezhduprochim Автор вопроса

Как точно заметил denver — в этом конкретном вопросе у тегов проявляется только его внутренняя составляющая — «краткое описание чего-то более большого». Внешняя составляющая — «поиск и объединение разнородных элементов» — не важна.

Написано более трёх лет назад

Поиск ключевых слов внутри предложения. Кто-нибудь занимался детально?

mezhduprochim @mezhduprochim Автор вопроса

TF-IDF и релевантность основанная на частоте данного слова в большом тексте — это немного другое.
Здесь анализ происходит внутри замкнутного предложения, в котором ключевые слова в большинстве случаев единичны.

Да и, кроме собственно вопроса, интересно было бы узнать людей, которые в подобных
вещах продвинулись.

Написано более трёх лет назад

Поиск ключевых слов внутри предложения. Кто-нибудь занимался детально?

mezhduprochim @mezhduprochim Автор вопроса

Небольшое дополнение:
Пространство аналитики замкнуто пространством предложения
(с возможностью использования стандартизированных ограниченных словарей)

Написано более трёх лет назад

Хабр стоит $1млн или $10млн?

mezhduprochim @mezhduprochim Автор вопроса

Кстати, очень хорошее сравнение. Единственное — не так все плохо у Хабра. 160 млн просмотров в 2009 году против 30 млн в месяц у TechCruncha сейчас. Да и Alexа — примерно говорит, что Хабр раза в 2 меньше. Ну пускай, сама аудитория российская чуть дешевле, чем интернациональная в раза 2-3. А в остальном компании очень похожи: по тематике, по подходу, по динамике. С учетом того, что все говорили что $25 млн за TechCrunch — маловато и есть еще $15-20 млн которые будут выплачены по результатам этого-следующего года, То получается что Хабр стоит $40 млн / 4-6. Где-то $7-10 mln — вполне объективно.

Написано более трёх лет назад

Хабр стоит $1млн или $10млн?

mezhduprochim @mezhduprochim Автор вопроса

надеялся услышать во сколько оценивается нематериальное — «значимое влияние на умы движущей части рунета»?

Написано более трёх лет назад

Войдите на сайт