Ответы пользователя Андрей по тегу «Data Mining»

Задать вопрос

Ответы пользователя по тегу Data Mining

Тему для магистерской диссертации в области анализа данных подсказать не желаете?

Андрей @OLS

Посмотрите историю kaggle и попытайтесь соотнести ее с предметными областями, которые интересны в Вашем ВУЗе/регионе ...

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как выделить основные города мира с равномерным покрытием?

Андрей @OLS

1. Ввел бы функцию штрафа, включающую а) штраф за расстояние между ближайшими городами (квадратично или еще сильнее возрастающую от расстояния) и б) за "невключение" существующего города (возрастающую от его населения).
2. Взял бы базу из 10К-20К существующих городов.
3. Применил бы какой-либо алгоритм оптимизации функции штрафа за счет изменения выборки. Лично мне кажется, что отлично подошло бы семейство генетических алгоритмов.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Кластеризация схожих массивов

Андрей @OLS

Если кол-во данных позволяет, посчитайте кол-во общих пользователей "С" между анализируемым запросом и референсным. Если длина исходных выборок (25 в Вашем примере) может сильно варьироваться (обозначим "N[0]" для анализируемой и "N[i]" для референсной), то наверное имеет смысл это число еще и отнормировать, например, "2*C/(N[0]+N[i])" или "C/SQRT(N[0]*N[i])" или "С/N[0]+C/N[i]".

Если кол-во данных не позволяет ("С" статистически близко к "0"), то возможно будет оправданно "расширить круг" исследуемого запроса и референсного, включив в их выборки (естественно уже с весами, отражающими частоты) другие запросы, которыми интересовались люди, которые интересовались исследуемым и референсным запросами (порознь). Пройдет ли такой маневр - зависит от предметной области, то есть семантических связей между пользователями и запросами.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как организовать кластеризацию десятков миллионов текстов?

Андрей @OLS

Задача отклонения статьи от корпуса. Решается буквально одной формулой при наличии готовых корпусов по тематике (а они у Вас есть, как я понимаю) :

habrahabr.ru/post/204104
(вместо НКРЯ - тематическая выборка уже классифицированных статей,
вместо Хабра - конкретная изучаемая статья)

Могу предложить программный код, к сожалению на ретро-языке.

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Выбор темы дипломной работы?

Андрей @OLS

Для data-mining нужны большие массивы информации "под рукой". Отталкивайтесь при выборе темы в первую очередь от этого.

- поиск заражений ботнетами по логам корпоративного прокси сервера
- анти-спам
- поиск нехарактерной активности пользователей корпоративной сети
- выявление авторства (идентификация анонимного автора) на интернет-форумах
- поиск зависимостей между новостями на информационных лентах и/или реальными событиями
- прогнозирование любых обменных курсов на основании новостных сайтов
- поиск зависимостей между действиями пользователей в социальных сетях или блогах

в общем фантазия при таких вводных, как у Вас, фактически не ограничена

Ответ написан более трёх лет назад

Комментировать

Комментировать
Книги по теории вероятностей и математической статистике

Андрей @OLS

David J. Sheskin Handbook of Parametric and Nonparametric Statistical Procedures

Ответ написан более трёх лет назад

Комментировать

Комментировать
Где можно взять большой архив новостей?

Андрей @OLS

habrahabr.ru/qa/11813/

Ответ написан более трёх лет назад

Комментировать

Комментировать

Самые активные сегодня

Drno
- 3 ответа
- 0 вопросов
newked
- 0 ответов
- 2 вопроса
Mors Clamor
- 2 ответа
- 0 вопросов
#
- 2 ответа
- 0 вопросов
pixma-1111
- 2 ответа
- 0 вопросов
Rsa97
- 2 ответа
- 0 вопросов

Тему для магистерской диссертации в области анализа данных подсказать не желаете?

Как выделить основные города мира с равномерным покрытием?

Кластеризация схожих массивов

Как организовать кластеризацию десятков миллионов текстов?

Выбор темы дипломной работы?

Книги по теории вероятностей и математической статистике

Где можно взять большой архив новостей?

Войдите на сайт