你会用“平 均”吗?前段时间,媒体一直在说国家统计局发布的我国2009年住房价格平均增长1.5%,这与我们老百姓大多数人的直觉违背。 正好有个毕业的学生在媒体是记者希望谈谈统计局发布的统计数字的理解!当然,沈老师不想去挑战什么,只是希望做数据分析的人应该能够会用“平均数”!前几 天看到一篇好文章,结合自己的理解与大家分享;
我经常说:统计不说谎,说谎的人会用平均数!统计不犯错,犯错的是人!
记得北大的刘德寰老师好像说过:大家记住,平均人不是人!
那么你会用平均数吗?平均、均值、平均数、平均值,average,mean等这些都是我们最常用到的统计量,但是真正要会用平均,并且知道它的适用情景 是非常重要的,甚至有时候是一种常识!既然是常识,相信国家统计局不应该犯常识性错误,但现实确实有很多人不知道平均的。
所以,你知道均值,或许不知道什么是算术平均,几何平均,其实还有调和平均,还有中位数Median和众数Mode。
什么是平均?简单思考的平均的意义的话,这是一种常识,似乎人人都在用平均。在数据分析的时候更是经常用到平均,平均数。实际上平均具有多种含义的,其适用情景也依赖你研究的对象意义,且采用计算的方式和方法。
所以,平均就是一个数值,它应该能够取代你所有数据中的每一个数据值,会得到同样的结果;如果我把某个数值用平均值代替,是否是一个有“代表”的样本,能够得到同样的意义解读!
情景1:如果我讲课有40个同学给老师讲课满意度进行评价,50%的人喜欢得1分,50%人不喜欢得-1分,平均值=0,什么意思?
情景2:我国房地产全国市场,上半年房价下降41%,而下半年上涨了44%,全年平均增长了1.5%吗?
情景3:如果你开车上班,去时你以每小时30公里到单位,下班回程你以每小时60公里到家,那么你平均开车每小时45公里吗?能说明你到单位的距离吗?
看来是要仔细斟酌一下“平均”了!
- 算术平均:Arithmetic Mean
优点:算术平均计算用到了所有数据,计算相对简单只需要加法和除法,平均结果直观,最能表达一种把取值大的和取值小的都拉到了平均的中间值,有回归的意义;这也是我们在统计分析中最常用的统计量;
缺点:算术平均容易受到异常值的影响,没有了差异;太中庸了,强调了一般性、普遍性;
例如:在电梯里,你的体重是150斤,有个小孩体重是100斤,还有一个箱子是350斤,平均重量是[(150+100+350)/3]=200斤,大概 没有人会算出三个人的平均体重是200斤,只能说明电梯负重了多少,平均没有任何意义,所有只能是同类数据可以算术平均;如果你把驴和马的体重加在一起算 平均,只能算出肉的意义;或许统计局的数据就是把别墅豪宅和保障性住房给加一起平均了;
当然,算术平均在80%的场合都适用,但偏偏就有20%的情景往往用算术平均不合适!因为,2/8原则提示20%的人占据着80%的社会财富!
比如收入,即使你的样本量再大,只要比尔·盖茨入样,Average立刻发生改变!但对于体重和身高,即使有人需要用卡车拉出来,有人比姚明还高两倍,只要样本足够大,Average也不发生改变!
- 中位数 Median
中位数表述中间的意思,也就是通过计算中间值代表平均;例如一组排好序列的数据:1,2 ,3 ,4其中位数=2.5,当然算术平均也是2.5;但是当数据呈现为:1,2,3,4,100时,平均值=22,但中位数=3(中间的值);显然用中位数合理!
优点:中位数对异常值不敏感,所以对于能够成为分组数据的比较适用,因为中位数就将数据分成了两个组;
缺点:中位数需要对数据进行排序,但大部分人在说中间数据时,别人会理解为平均;
例如:当我们说有一半的人生活水平在平均线以下,这个平均应该指的是中位数,而不是平均值;所以房价、收入等价格问题最好不要用算术平均,中位数比较合适,否则我们都有了“被平均”的感觉!
- 众数 Mode
众数就是最多的、最流行的意思;赢者胜出的度量,在大多数需要投票决定的情况下,选择众数比较理想;
优点:容易计算,容易理解,最多的数就是;经常用在选择和投票行为中,这种情况没有人愿意选择平均;
缺点:有时候没有众数,有时候不止一个;众数更像投票,举手表决,而不是计算;有些情况下需要唱票,方式会复杂;当然赢者通吃情况下,没有妥协和中间路线,多一票也是他了!
例如:大家生活工作中经常碰到的少数服从多数,就是众数的理解;当我们要测量人们对那部电影的偏好或评选最佳演员时,众数也是最佳选择;你在选择当今流行颜色的时候,显然平均颜色没有任何意义;
当然,如果北京市机动车限行日,如果一周7天,让大家选择一天限行(不考虑汽车尾号),应该选择人们“投票”最多的哪一天,而平均是没有意义的。
到这里,留一个问题给大家:
1-北京市住房新政下,90平米是贷款利率的分界点,你认为如果进行调查,应该用哪个“平均”;
- 几何平均 Geometric Mean
对于平均来讲,大部分人,或者说大多数情况下,我们只要把数据加总求和,计算平均;但是当我们谈论与投资、面积或体积、回报率、利润率等要素的时候,往往采用把它们乘起来求平均的方法,这就是几何平均。
比如有两只基金投资组合,投资了四只股票,盈亏率情况如下:
组合方案A:+10%,-10%,10%,-10%
组合方案B:+30%,-30%,30%,-30%
如果让你选择一个基金,你认为那只基金盈亏比较平衡呢?显然,如果我们采用算术平均,那么两个组合盈亏都是0,甚至你会认为方案B更好些呢!符合挣得到,赔得多的风险投资理念。
但如果我们采用几何平均进行计算:
组合方案A:1.10*0.90*1.10*0.90=0.98,开四次方,平均约有2%的亏损,平摊到每只股票是0.5%的亏损
组合方案B:1.30*0.70*1.30*0.70=0.83,开四次方,平均约有17%的亏损,平摊到每只股票是4.6%的亏损
现在大家可以看出来了,两只基金投资组合都是亏损,但如果必须选一只基金的话,平均来讲还是组合A比较稳妥!
优点:乘法原则,一损俱损(加法原则是取长补短);在综合评价中,构成一组指标体系的子指标集的数据,往往采用乘法;主要用在投资回报率,面积和体积,容量等
缺点:计算稍微复杂。
例如:
情景一:收视率分析,电视收视率,为了得到在同一起跑线上对收视率进行比较,需要用频道、时段和类型进行收视率修正,就可以采用几何平均;
情景二:通货膨胀率计算,如果我们得到三年的通货膨胀率是1%,2%和10%,那么平均通货膨胀率=(1.01*1.02*1.10)^(1/3)=4.3%;
情景三:优惠券,假如你得到三种折扣优惠券,分别折扣是50%,25%,35%的off,那么当你全部用上购物的时候,你的平均折扣是多少?(0.50*0.75*0.65)^(1/3)=37.5%;
情景四:平均面积,如果你房子的客厅,面积是长15米,宽4米,那么平均长或宽是多少?(15*4)^(1/2)=7.75米
情景五:如果你有一个12*24*48公分的箱子,那么对应一个标准的立方体的平均是多少?(12*24*48)^(1/3)=24公分。
从上面我们可以看出,几何平均适用于需要乘法计算的情况下,求平均的含义!
- 调和平均 Harmonic Mean
调和平均大家可能用得比较少了,实际上调和平均最重要的一点就是在完成一个任务时,也就是当我们要分成不同的步骤完成同一个目标时,如何计算平均率的含义!
前面我们在计算上班开车往返平均速度时,去程每小时30公里,回程每小时60公里,那么采用调和平均应该等于2/(1/30+1/60)=40公里/每小时。也就是说调和平均是计算平均率,等于=总产出/总投入!
优点:调和平均适用于为得到同一个目标,对平均数起同等作用条件下应用,来计算平均率;有时候在不知道分子的情况下,采用调和平均计算;
缺点:计算复杂,取值不能有0值,也容易受异常值和极端值影响!
例如:如果你准备攒钱分期购买股票,但必须分三个月买股票,支付价格分别是:1月25元/股,2月30元/股,3月35元/股,那么你购买股票的平均价格是多少呢?调和平均=3/(1/25+1/30+1/35)=29.43元/股;
现在你如果手头有1万元或3万元,你就可以计算平均来讲能够买多少股了。
当然,除了前面我们叙述的各种平均数计算方法,其实还有别的所谓平均,什么加权平均、预测值、回归等都具有平均的意味!有时候,比较哪种平均方法谁好谁坏,是没有意义的,关键看你掌握的数据和适用的条件。
记住:我们在谈论平均的时候,其实一直不要忘了,前面有两个前提:这就是分类和差异!离开了分类问题,差异问题谈平均是没有意义的,当然没有平均我们就没有办法聊天了!
还有,谈论平均都是假设我们讨论的事物应该服从所谓正态分布,95%的情况;但是自然界中很多现象不一定服从正态分布,谈论平均就没有意义了!例如:幂律分布