第五周:离散选择模型分析技术——每周一讲多变量分析(第一部分)

   离散选择模型(Discrete Choice Model),也叫做基于选择的结合分析模型(Choice-Based Conjoint Analysis,CBC),是一种非常有效且实用的市场研究技术。该模型是在实验设计的基础上,通过模拟所要研究产品/服务的市场竞争环境,来测量消费者的购买行为,从而获知消费者如何在不同产品/服务属性水平和价格条件下进行选择。这种技术可广泛应用于新产品开发、市场占有率分析、品牌竞争分析、市场细分和价格策略等市场营销领域。同时离散选择模型也是一种处理离散的、非线性的定性数据的复杂高级多元统计分析技术,它采用Multinomial Logit Model进行数据统计分析。

根据Sawtootch公司调查显示:在市场研究中,CBC方法正在快速增长,应用比传统的结合分析(联合分析)应用更多!

 

离散选择模型主要用于测量消费者在实际或模拟的市场竞争环境下如何在不同产品/服务中进行选择。通常是在正交实验设计的基础上,构造一定数量的产品/服务选择集(Choice Set),每个选择集包括多个产品/服务的轮廓(Profile),每一个轮廓是由能够描述产品/服务重要特征的属性(Attributes)以及赋予每一个属性的不同水平(Level)组合构成。例如消费者购买手机的重要属性和水平可能包括:品牌(A,B,C)、价格(1500元,1750万元,2000元)、功能(短信,短信语音,图片短信)等,离散选择模型是测量消费者在给出不同的产品价格、功能条件下是选择购买品牌A,还是品牌B或者品牌C,还是什么都不选择。离散选择模型的一个重要的假定是:消费者是根据构成产品/服务的多个属性来进行理解和作选择判断;另一个基本假定是:消费者的选择行为要比偏好行为更接近现实情况。

它与传统的全轮廓结合分析(Full Profiles Conjoint Analysis)都是在全轮廓的基础上采用分解的方法测量消费者对某一轮廓(产品)的选择与偏好,对构成该轮廓的多个属性和水平的选择与偏好,用效用值(Utilities)来描述。

但是,它与传统的结合分析的最大区别在于:离散选择模型不是测量消费者的偏好,而是获知消费者如何在不同竞争产品选择集中进行选择。因此,离散选择模型在价格研究中是一种更为实际、更有效、也更复杂的技术。具体表现在:

 

  • 将消费者的选择置于模拟的竞争市场环境,“选择”更接近消费者的实际购买行为;消费者的选择行为要比偏好态度更能反映产品不同属性和水平的价值,也更具有针对性;
  • 消费者只需做出“买”或“不买”的回答,数据获得更容易,也更准确;
  • 消费者可以做出“任何产品都不购买”的决策,这与现实是一致的;
  • 实验设计可以排除不合理的产品组合,同时可以分析产品属性水平存在交互作用的情况;
  • 离散选择集能够较好地处理产品属性水平个数(大于4)较多的情况;
  • 统计分析模型和数据结构更为复杂,但可以模拟更广泛的市场竞争环境;
  • 模型分析是在消费者群体层面,而非个体层面。

离散选择模型主要采用离散的、非线性的Multinomial Logit统计分析技术,其因变量是消费者在多个可选产品中,选择购买哪一种产品;而自变量是构成选择集的不同产品属性。

目前统计分析软件主要有SAS/STAT统计过程和SAS Market模块,二者均采用SAS/STAT Proc PHREG过程—比例风险回归(Proportional Hazards Regression)分析。另外,Sawtooth软件公司开发了专用的CBC市场研究分析软件(Choice-Based Conjoint Analysis),该软件集成了从选择集实验设计、问卷生成、数据收集到统计分析,市场模拟等离散选择模型的市场研究全过程。
从一定角度讲:离散选择模型是一种比较复杂的分析技术!据说采用离散选择模型研究微观消费者行为的人得了诺贝尔经济学奖!
必须注意:任何一项采用离散选择模型进行的市场研究,都包括从确定研究目的、实验设计、数据收集、数据整理、分析和计算、检验与应用、模拟市场、撰写研究报告等全过程。当然,最好借助专用的分析软件来实现。

下面我们还是通过手机价格研究案例来看如果进行离散选择分析!

1-研究目的:随着移动通讯市场竞争的日趋激烈,移动和联通两大服务商在原有全球通和130手机用户的基础上,分别推出了预付话费的神州行和如意通,同时联通在GSM网络基础上又推出了CDMA网络。但是,话费价格始终是影响消费者选择供应商的重要因素。为了制定价格竞争策略,可以采用离散选择模型进行品牌优势和价格研究。

2-属性与水平确定:研究包括5种服务品牌和4种不同价格,分别是:品牌(移动全球通、移动神州行、联通130、联通如意通、联通CDMA)和价格(0.30元/分钟,0.40元/分钟,0.50元/分钟,0.60元/分钟)。

3-正交实验设计:在离散选择模型中,因变量是消费者在若干个可选品牌构成的选择集中的选择,而自变量是影响消费者选择的属性。因此,离散选择集应该设计为5种品牌(属性)分别有4种不同价格水平,如果采用全因子实验设计,应该有4×4×4×4×4=1024种可能选择集,远远超过消费者的理性判断范围,必须采用部分因子正交排列法来减少选择集。记住:这一点与传统的结合分析设计属性和水平不同!
传统的全轮廓结合分析在进行实验设计时,因变量是消费者对产品/服务轮廓的总体评价偏好得分,自变量是构成产品/服务的属性水平因子。但是,在离散选择模型中,实验设计的因变量是消费者对产品的选择,从m种产品选择一种(选择=1,未选择=0),而自变量是产品/服务的属性。
例如:假定价格研究涉及到3个品牌(品牌1,品牌2,品牌3)和2种价格(1.99,2.99),全轮廓结合分析是将品牌水平和价格水平都作为自变量因子,但离散选择模型并不将品牌单作为属性因子(自变量),而是将“品牌价格”作为含有3个水平(品牌1价格,品牌2价格,品牌3价格)的属性因子,即三个“品牌价格”属性因子分别有三种不同价格水平。例如:    在实际应用中,有时候往往无法获得正交、平衡的部分因子组合,例如:存在着市场无法接受的组合,要求的正交排列、平衡的轮廓数不存在,部分属性之间存在着交互作用。这时候我们必须做出一定的选择,考虑采用非正交的实验设计方法,SAS8.1 for Windows的宏:%MKTRUNS()和%MKTDES(),现在最好采用%MKTEX()可以用来帮助实现正交或非正交实验设计并估计线性模型实验设计效果。

可以用SAS8.2宏%MKTRUNS()和%MKTDES(),%MKTEX()生成选择集子集和评估实验设计效果。本项研究的实验设计结果给出了16,32,48,64等均可满足正交和平衡的选择集个数,考虑到被访者的承受能力,确定16个选择集是适当的。当确定了选择集个数后,根据实际情况加上“不选择任何服务”选项,则每个选择集含有6种可能的服务方式,将每个选择集制作成16张类似前面问卷设计给出的选择集卡片,按顺序或随机的方式让被访者依次从每张卡片选择一种最可能使用的服务。
4-问卷设计和数据采集:离散选择模型是将产品/服务轮廓的属性水平组合成m种不同产品/服务,构造一个选择集,同时展现给消费者,从中选择一个最可能购买的产品/服务。也可以让消费者评价多个选择集,每个选择集可以包括“在该选择集中,任何产品都不购买”的选择,这样更接近现实情况。

每一个选择集中的产品可以完全用文字描述,也可以辅助于图片或实物模型,一般需要将选择集制作成卡片。例如,移动话费价格研究包括了5家移动通讯服务商品牌和4种不同话费价格。在离散选择模型中,5个品牌分别有4种不同价格水平,部分因子正交实验设计构造了16个选择集,其中某个选择集卡片如下所示:

离散选择模型的数据收集通常采用纸笔或者计算机辅助调查方法,后者一般借助专用的模型分析软件,例如Sawtooth公司的CBC软件。可以采用调查员面访,也可以采用中心地点调查的形式收集资料。

5-样本量选择:如何确定离散选择模型样本量的大小?首先我们要考虑采用概率抽样还是非概率抽样,概率抽样除了要考虑非常简单随机抽样样本量确定因素:置信度和误差(精度)之外,还要考虑离散选择模型的影响因素,主要包括:属性和水平的个数,估计主效应和交互作用,每个选择集包含的可选产品数,选择集个数;研究表明:随着每个被访者需要选择的选择集个数增加将等同于增加了样本量。一般情况下,离散选择模型的样本量在300-600个样本之间,如果需要估计不同的消费者细分市场,样本量还需要增大;另外,离散选择模型的被访者同质性程度越高,估计的效果会越好。

6-数据整理和编码:离散选择模型的数据整理和编码是非常重要的,也是其复杂性的一个方面!当然,其调查过程和采集数据是非常简单的!离散选择模型对选择集的数据格式有特殊的要求,在进行数据分析之前必须将所有选择集进行重新编码,并与被访者的“选择”结果合并数据。例如,前面给出了品牌价格研究的4个选择集,一行代表一个选择集,重新编码整合数据后,需要三行代表一个选择集,并将线性选择结构转换为离散选择结构,最后将被访者的“选择”整合在离散选择数据结构中。
    上面给出了满足离散选择模型的数据结构,第1列表示每个被访者的编号,第2列表示每个选择集编号,第3列表示每个被访者从含3个产品的一个选择集中选择产品的结果(选择=1,不选择=2)。假定我们调查了100位消费者,最终的数据集将含有100×4×3=1200行数据。随着被访者人数、选择集个数和每个选择集含有的可选产品数目的增加,数据集将会非常庞大。由于离散选择模型是在群体层面上进行分析,习惯上可以将被访者编号列设置为所有被访者的选择频次,作为加权变量,从而简化数据集。