Анализ и обработка большого массива неструктурированных данных?
Здравствуйте! Друг, не имеющий аккаунта на хабре, просил спросить. Цитирую буквально:
Имеется довольно большое количество неструктурированных данных, собранных из новостных лент, социальных сетей и т.д. Необходимо провести анализ этих данных с целью получения эмоционального информационного фона, а также представить, по возможности, в разрезе различных аналитик, как количественных, так и качественных.
Существуют ли какие-нибудь инструменты для проведения подобного анализа?
Опыт жены, работавшей аналитиком именно по новостям говорит, что лучший инструмент — это сам аналитик. Все инструменты, которые им предлагали использовать, выдавали не всегда релевантные результаты.
Про разрез качественных и количественных аналитик цели не понял, а касательно эмоций… Когда-то делал подобный анализ. Массив эмоциональных слов составлялся исходя из лексики конкретного языка. Далее вычислялась плотность подобных слов в тексте. Было давно, но что-то около 12-18% плотности означало, что текст излишне эмоционален.
Также делал привязку плотности к объему текста и градацию эмоциональности в зависимости от плотности.
Существует целый ряд инструментов для мониторинга социальных медиа и СМИ (YouScan, Крибрум, Opiner и т.д.). В вашем случае больше подойдет сервис анализа текстовых данных Textocat API компании Textocat.