• Поиск ключевых слов внутри предложения. Кто-нибудь занимался детально?

    @mezhduprochim Автор вопроса
    Смысл вроде как имеет — и даже не малый.
    Эффективное решение этого вопроса можно использовать в различных прикладных моментах.
    Как самый простой пример, у Яндекса — этот вопрос один из элементов его хорошего поиска.

    Вообще, если интересно, www.aot.ru/technology.html — у них очень подробно и интересно написано
    про вяские «плюшки» связанные c анализом русского языка и как они ко всему этому подходят.
  • Поиск ключевых слов внутри предложения. Кто-нибудь занимался детально?

    @mezhduprochim Автор вопроса
    Я не встречал открытых систем авторефератов заточенных на работу с одним «предложением» отделенным от основной массы. Большинство из них работает с большими объема текста. Здесь же суть вопроса сосредаточенна внутри предложения.
  • Поиск ключевых слов внутри предложения. Кто-нибудь занимался детально?

    @mezhduprochim Автор вопроса
    В этом и есть вся затея(задача) — «Научиться наиболее эффективно находить ключевые слова в бесконечном наборе произвольных предложений.
  • Поиск ключевых слов внутри предложения. Кто-нибудь занимался детально?

    @mezhduprochim Автор вопроса
    Повторюсь MYSTEM — хорошая штука. Но одних словарей — явно не достаточно, чтобы
    создать эффективный инструмент.

    Возвращаясь, к кошке с собакой.

    Допустим мы задаемся вопросом — «как бы выделить главных действующих лиц»:

    1) Например, обозначив их существительным в именительном падеже, но у вас
    тут же возникнут другие вопросы:
    — почему «кошка» в творительном падеже не менее значима, чем собака в именительном
    — чем существительное «двор» хуже существительных «кошка» и «собака»

    2) Можно, пойти дальше — и сказать что одушевленные существительные «кошка» и «собака»
    важнее не одушевленных — «двор»:
    — здесь может быть и да.
    А если предложение будет чуть-чуть другим:
    «Собака сцепилась с кошкой во дворе известного исторического дома»
    — акценты уже изменились и одним из главных дествующих лиц стал неодушевленный «известный дом»

    3) Еще лучше будет работать — если существительные разделять на определенные и не определенные (примерно как в английском языке — с артиклем «the», и «a»). Определенные гораздо чаще играют
    роль главных действующих лиц.

    4) Но все это — только начало. И если вы хотите двигаться дальше, вам приходится менять подходы.

    Еще один пример:
    «Собака сцепилась с кошкой, так что клочья летили в разные стороны»

    Так вот, самым эффективным в этом варианте окажется именно
    производное от сказуемого «сцепились» — [драка]. А «кошка» с «собакой»
    чуть-чуть да ушли на второй план.

    «Прилагательное, существительное, глагол», «Падежи, одушевленность, определенность»
    и даже сложные разделения на «Подлежащее, сказуемое, обстоятельство и дополнение»
    — все это не позволяет определять суть с высокой точностью.

    Я повторюсь: «предложение» как сцена — элементы которой связаны между собой,
    и нужно найти не столько вес каждого элемента в отдельности, сколько вес
    с учетом всех его связей в общей картине предложения.
  • Поиск ключевых слов внутри предложения. Кто-нибудь занимался детально?

    @mezhduprochim Автор вопроса
    Яндексу — несомненно огромное спасибо за столь хороший инструмент. Но как раз с морфологией проблем возникает немного.

    А вот с «Подлежащим» и «Сказуемым» — направление правильное, но и эффективная автоматизация «синтаксиса языка» задача вроде как совсем не простая.

    Лично я для себя рассматриваю «предложение» как сцену, на которой есть:
    — главные действующие лица (часто это как раз — «подлежащее»)
    — вспомогательные/второстепенные объекты («обстоятельства, дополнения»)
    — действия/связи (часто — «сказуемые»)

    Можно, с большой степенью уверенности, говорить о разном весе каждого типа для генерации «ключевых слов», но создание эффективного алгоритма для разложения «сцены» на кирпичики задача совсем не тривиальная — собственно это и есть основная задача данного вопроса.

    Я приведу еще один «простой» пример, чтобы все было чуть понятнее:
    «Собака сцепилась с кошкой во дворе дома»

    — Если попытаться описать это «предложение» одним ключевым словом — например, [Собака], это уже что-то,
    но этого будет явно не достаточно.

    — Если ключевые слова описывают все действующие лица сцены — [Собака],[Кошка] — то массив ключевых слов становится куда более качественным при минимальном их количестве.

    — Можно идти и дальше и добавить связующее элементы — [Собака],[Кошка],[Сцепились] — а можно посчитать что это «дорого» для системы, и не идти. Вопрос минимального/оптимального количества ключевых слов тоже не такой простой.
  • Поиск ключевых слов внутри предложения. Кто-нибудь занимался детально?

    @mezhduprochim Автор вопроса
    Голова (а лучше во множественном числе). А вот принципы авторефератов (многие из которых основаны на количестве повторенний) — здесь не работают.

    Сама задача несомненно имеет решение:

    например,
    одно из простых решений, когда нужен единичный массив ключевых слов для русского языка — первое существительное в предложении . Кстати, для «Моего дяди самых честных правил, который не в шутку занемог» — на выходе получите вполне разумное [дядя].

    Но когда начинаешь касаться этой темы детально, то понимаешь что разнообразию, стремлению к эффективности и гибкости решений — нет предела.
  • Поиск ключевых слов внутри предложения. Кто-нибудь занимался детально?

    @mezhduprochim Автор вопроса
    Как точно заметил denver — в этом конкретном вопросе у тегов проявляется только его внутренняя составляющая — «краткое описание чего-то более большого». Внешняя составляющая — «поиск и объединение разнородных элементов» — не важна.
  • Поиск ключевых слов внутри предложения. Кто-нибудь занимался детально?

    @mezhduprochim Автор вопроса
    TF-IDF и релевантность основанная на частоте данного слова в большом тексте — это немного другое.
    Здесь анализ происходит внутри замкнутного предложения, в котором ключевые слова в большинстве случаев единичны.

    Да и, кроме собственно вопроса, интересно было бы узнать людей, которые в подобных
    вещах продвинулись.
  • Поиск ключевых слов внутри предложения. Кто-нибудь занимался детально?

    @mezhduprochim Автор вопроса
    Небольшое дополнение:
    Пространство аналитики замкнуто пространством предложения
    (с возможностью использования стандартизированных ограниченных словарей)
  • Хабр стоит $1млн или $10млн?

    @mezhduprochim Автор вопроса
    Кстати, очень хорошее сравнение. Единственное — не так все плохо у Хабра. 160 млн просмотров в 2009 году против 30 млн в месяц у TechCruncha сейчас. Да и Alexа — примерно говорит, что Хабр раза в 2 меньше. Ну пускай, сама аудитория российская чуть дешевле, чем интернациональная в раза 2-3. А в остальном компании очень похожи: по тематике, по подходу, по динамике. С учетом того, что все говорили что $25 млн за TechCrunch — маловато и есть еще $15-20 млн которые будут выплачены по результатам этого-следующего года, То получается что Хабр стоит $40 млн / 4-6. Где-то $7-10 mln — вполне объективно.
  • Хабр стоит $1млн или $10млн?

    @mezhduprochim Автор вопроса
    надеялся услышать во сколько оценивается нематериальное — «значимое влияние на умы движущей части рунета»?