第一周:多重对应分析方法——每周一讲多变量分析

 前面的一篇博文介绍了对应分析方法的解读技巧,不少读者看了后非常想知道如何操作多重对应分析。其实多重对应分析在超过两个以上定类变量时有时候非常有效,当然首先我们要理解并思考,如果只有三个或有限的几个变量完全可以通过数据变换和交互表变量重组可以转换成两个定类变量,这时候就可以用简单对应分析了。

对应分析对数据的格式要求:

  • 对应分析数据的典型格式是列联表或交叉频数表。
  • 常表示不同背景的消费者对若干产品或产品的属性的选择频率。
  • 背景变量或属性变量可以并列使用或单独使用。
  • 两个变量间——简单对应分析。
  • 多个变量间——多元对应分析。

现在,我们还是来看看如何操作多重对应分析并如何解读对应图;

我们假定有个汽车数据集,包括:来源国(1-美国、2-欧洲、3-日本),尺寸(1-大型、2-中型、3-小型),类型 (1-家庭、2-运动、3-工作),拥有(1-自有、2-租赁)性别(1-男、2-女),收入来源(1-1份工资来源、2-2份工资来源),婚姻状况(1-已婚、2-已婚有孩子、3-单身、4-单身有孩子);

从数据集看,我们有7个定类变量,如果组合成简单的交叉表是困难的事情,此时采用多重对应分析是恰当的分析方法。

下面我还是采用SPSS18.0,现在叫PASW Statistics 18.0来操作!注意:不同版本在多重对应分析方法有一些不同,但大家基本上可以看出了,高版本只能是更好,但选择会复杂和不同!

在进行多重对应分析之前,研究者应该能够记住各个变量大致有多少类别,个别变量如果变量取值太偏或异常值出现,都会影响对应分析的结果和对应图分析!

在SPSS分析菜单下选择降维(Data Redaction-数据消减)后选择最优尺度算法,该选项下,根据数据集和数据测量尺度不同有三种不同的高级定类分析算法,主要包括:多重对应分析、分类(非线性)主成分分析、非线性典型相关分析;

注意:随着版本的增高,研究人员在统计分析时就要各位主要变量的测量尺度,并且最好在进行数据清理和分析前,明确定义好测量尺度;当然也要做好Lable工作!

接下来,我们就可以选择变量和条件了!

 

大家可以把要分析的变量都放到分析变量内,补充变量的含义是如果有哪个变量你并不想作为对应分析的变量,而只是作为附属变量表现在对应图上可以加入!这一点其实在简单对应分析也有这种定义。(我们将在专门的简单对应分析方法中再讲!)

 

然后我们要选择“变量”选项,大家可以选择类别图:每一个变量的分类图,重点是选择联合类别图,我们把7个变量全部放入,执行!(其它选项大家可以测试,我还有一些没有搞清楚)

下面我们看结果:

从图中我们可以看出:美国车都比较大,家庭型,主要购买者是已婚带孩子的;日本和欧洲车主要是小型、运动的和已婚没有孩子的人购买;特别注意:单身和单身带孩子的往往是租赁汽车,收入单一来源,但这个地区没有车满足这个市场,或许是市场空白;

具体的解读大家可以根据自己的研究设计和假设去寻找答案!

主要统计指标可以看:

上图主要给我们了对应图维度的解释比率,最下面的图大家会看吗?

提示:夹角是锐角意味着相关,所以:定类变量的相关性是不是可以解释啦!

总结:(同样适合简单对应分析)

对应分析的优点:

  • 定性变量划分的类别越多,这种方法的优势越明显。
  • 揭示行变量类别间与列变量类别间的联系。
  • 将类别联系直观地表现在二维图形中(对应图)。
  • 可以将名义变量或次序变量转变为间距变量。

对应分析的缺点:

  • 不能用于相关关系的假设检验。
  • 维度要由研究者决定。
  • 有时候对应图解释比较困难。
  • 对极端值比较敏感。