社会网络分析(Social Network Analysis)是最近非常流行的一种社会科学研究方法,当然,这种分析思想不仅仅是社会科学领域,其实很多自然科学领域也在研究网络,复杂网络;过去我们的研究数据基本上都是属性数据,例如:性别、年龄、收入、态度、价值观等等,但我们都是生活在一个特定社会环境中,我们的行为都受到其他人的影响;有人说:传统的抽样调查强调随机性,这就象社会科学研究的一种“绞肉机”,把个体从其所在的社会情境中剥离出来,还要确保研究对象之间不存在联系。
常规统计分析处理的都是属性数据,社会网络分析处理的则是关系数据,其分析单位是“关系”,是从“关系”角度出发研究社会现象和社会结构,从而扑捉由社会结构形成的态度和行为。
目前关于网络分析,复杂网络分析有了非常多的理论成果和软件分析工具,随机网络、规整网络、小世界理论等,当然最值得期待的研究是幂律分布——无标度网络等;Ucinet、NetDraw、Pajek等软件都是专门处理社会网络分析的。
社会网络分析研究关系,这一点在数据挖掘领域专门有Web分析、关联分析等等,说明数据挖掘也嵌入研究关系的模块,并且是一种重要的分析工具,典型的就是“啤酒和尿布的故事”。
当然,今天我并不想细致讲解社会网络分析,而是最为一个数据分析人员,从关系的角度分析数据,有了这个思想,会让我们开阔思路,打开一个新的多变量数据分析新天地。其实,我们过去大部分多变量数据分析都是基于“关系”进行分析的,比如:相关分析、聚类分析、多维尺度分析、因子分析、对应分析,这些多变量分析方法其实本质上就是矩阵,无非是频数矩阵、相关矩阵、协方差矩阵等,只不过我们没有关注过中间步骤就是了。
下面,我们通过一个案例,来看看传统的多变量分析与从关系角度进行的网络分析有什么特色!
传统的市场调查经常采用态度量表,1-10打分方式,我们针对某项研究调查消费者对购买汽车的心理预期和情感测量,经过定性研究,确定了有关汽车的26个情感词汇!
这种数据是典型的市场调查数据或者说多变量分析数据。在考虑了缺省值处理后,我们来进行分析:
首先:我们可以采用因子分析!
从因子分析,我们看到,5个因子和26个词汇的因子负荷,相关结论大家可以得出!
接下来,我们采用社会网络分析Ucinet软件进行分析:
我们先采用SPSS软件得到26个词汇的相关系数矩阵,从Analysis——>相关——>距离
我们要设定计算变量之间的关系,如果是差异性,不相似性则有多种距离计算方法,默认是欧几里得距离,如果是相似性则是Pearson皮尔逊相关系数。我们选择相关系数矩阵,把矩阵拷贝到Excel软件中:
我们把矩阵存盘Matrix,矩阵!(这里可以大家看看,前面的博客文章,矩阵就是信息)
现在我们把这个相关矩阵导入的Ucinet软件中:(记住要删除多余的行或列)
接下来,我们可以在Ucinet软件中进行MDS和聚类分析
我们看看MDS分析结果:
MDS主要是研究差异性和相似性的关系,也是降维技术,在二维空间展示数据点的关系,靠近的应该怎样?坐标轴的含义等等!
我们可以进行聚类分析,选择聚类分析,再选谱系聚类,看看哪些词汇聚在了一起:
最后,我们看看采用社会网络分析方法,其中最重要的是网络的可视化技术,我们用Netdraw软件进行矩阵展现:
Netdraw可以直接读取Ucinet的系统数据分析,##h后缀!
我们可以选择不同的Layout形式,并把相关系数值显示出来,
最后,我们不断调整相关系数值,当关系强度=0.42时,我们展示出结果:
我们利用Subgroup子群分析,选择6个子群:
现在,大家可以进行关系分析了,哪些情感词汇是在一个子群(是不是类似因子分析,公共因子需要命名啦),我们不仅看到子群(因子),而且可以得到26个情感词汇的联系,比如:酷与时尚,而且可以知道要有品味,必须经过大气、物有所值才能得到可靠的路径;
也就是说,当我们看到情感词汇的关系图后,我们就可以有意义的输出!
我经常说一句话:看得见,才能做得到,看得见,才能做到好!