Анализ и обработка большого массива неструктурированных данных?

Здравствуйте! Друг, не имеющий аккаунта на хабре, просил спросить. Цитирую буквально:


Имеется довольно большое количество неструктурированных данных, собранных из новостных лент, социальных сетей и т.д. Необходимо провести анализ этих данных с целью получения эмоционального информационного фона, а также представить, по возможности, в разрезе различных аналитик, как количественных, так и качественных.

Существуют ли какие-нибудь инструменты для проведения подобного анализа?
  • Вопрос задан
  • 4973 просмотра
Пригласить эксперта
Ответы на вопрос 3
vasilyev
@vasilyev
php, 1c-bitrix
Опыт жены, работавшей аналитиком именно по новостям говорит, что лучший инструмент — это сам аналитик. Все инструменты, которые им предлагали использовать, выдавали не всегда релевантные результаты.
Ответ написан
Комментировать
2ball
@2ball
Хардкор кодер
Про разрез качественных и количественных аналитик цели не понял, а касательно эмоций… Когда-то делал подобный анализ. Массив эмоциональных слов составлялся исходя из лексики конкретного языка. Далее вычислялась плотность подобных слов в тексте. Было давно, но что-то около 12-18% плотности означало, что текст излишне эмоционален.
Также делал привязку плотности к объему текста и градацию эмоциональности в зависимости от плотности.

Думаю сейчас методы шагнули вперед. Ну и по первым ссылкам в Google выпала относительно свежая дипломная работа по теме modis.ispras.ru/seminar/wp-content/uploads/2012/07/Silvestrov-thesis.pdf
Ответ написан
Комментировать
nzhiltsov
@nzhiltsov
CTO и сооснователь Textocat
Существует целый ряд инструментов для мониторинга социальных медиа и СМИ (YouScan, Крибрум, Opiner и т.д.). В вашем случае больше подойдет сервис анализа текстовых данных Textocat API компании Textocat.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы