Ответы пользователя по тегу Data mining
  • Тему для магистерской диссертации в области анализа данных подсказать не желаете?

    Посмотрите историю kaggle и попытайтесь соотнести ее с предметными областями, которые интересны в Вашем ВУЗе/регионе ...
    Ответ написан
    Комментировать
  • Как выделить основные города мира с равномерным покрытием?

    1. Ввел бы функцию штрафа, включающую а) штраф за расстояние между ближайшими городами (квадратично или еще сильнее возрастающую от расстояния) и б) за "невключение" существующего города (возрастающую от его населения).
    2. Взял бы базу из 10К-20К существующих городов.
    3. Применил бы какой-либо алгоритм оптимизации функции штрафа за счет изменения выборки. Лично мне кажется, что отлично подошло бы семейство генетических алгоритмов.
    Ответ написан
    Комментировать
  • Кластеризация схожих массивов

    Если кол-во данных позволяет, посчитайте кол-во общих пользователей "С" между анализируемым запросом и референсным. Если длина исходных выборок (25 в Вашем примере) может сильно варьироваться (обозначим "N[0]" для анализируемой и "N[i]" для референсной), то наверное имеет смысл это число еще и отнормировать, например, "2*C/(N[0]+N[i])" или "C/SQRT(N[0]*N[i])" или "С/N[0]+C/N[i]".

    Если кол-во данных не позволяет ("С" статистически близко к "0"), то возможно будет оправданно "расширить круг" исследуемого запроса и референсного, включив в их выборки (естественно уже с весами, отражающими частоты) другие запросы, которыми интересовались люди, которые интересовались исследуемым и референсным запросами (порознь). Пройдет ли такой маневр - зависит от предметной области, то есть семантических связей между пользователями и запросами.
    Ответ написан
    Комментировать
  • Как организовать кластеризацию десятков миллионов текстов?

    Задача отклонения статьи от корпуса. Решается буквально одной формулой при наличии готовых корпусов по тематике (а они у Вас есть, как я понимаю) :

    habrahabr.ru/post/204104
    (вместо НКРЯ - тематическая выборка уже классифицированных статей,
    вместо Хабра - конкретная изучаемая статья)

    Могу предложить программный код, к сожалению на ретро-языке.
    Ответ написан
  • Выбор темы дипломной работы?

    Для data-mining нужны большие массивы информации "под рукой". Отталкивайтесь при выборе темы в первую очередь от этого.

    - поиск заражений ботнетами по логам корпоративного прокси сервера
    - анти-спам
    - поиск нехарактерной активности пользователей корпоративной сети
    - выявление авторства (идентификация анонимного автора) на интернет-форумах
    - поиск зависимостей между новостями на информационных лентах и/или реальными событиями
    - прогнозирование любых обменных курсов на основании новостных сайтов
    - поиск зависимостей между действиями пользователей в социальных сетях или блогах

    в общем фантазия при таких вводных, как у Вас, фактически не ограничена
    Ответ написан
    Комментировать
  • Книги по теории вероятностей и математической статистике

    David J. Sheskin Handbook of Parametric and Nonparametric Statistical Procedures
    Ответ написан
    Комментировать
  • Где можно взять большой архив новостей?

    Ответ написан
    Комментировать