工欲善其事,必先利其器——数据分析软件

工欲善其事,必先利其器!

数据分析也好,统计分析也好,数据挖掘也好、商业智能也好都需要在学习的时候掌握各种分析手段和技能,特别是要掌握分析软件工具!我曾经说过,沈老师的学习方法,一般是先学软件开始,再去应用,再学会理论和原理,因为是老师,再去教给别人!没有软件的方法就不去学了,因为学了也不能做,除非你自己会编程序。

那么在数据分析领域,都有哪些软件分析工具呢?如何选择呢?其实很多领域或者说分析方法都有相应的软件工具,只要你想找就应该能够找到!

这里我把软件分成纵横四个层次的的象限图来表达!

第一维度:数据存储层——>数据报表层——>数据分析层[……]

Read more

学统计的人为什么不会数据分析——谈谈社会科学研究方法

很多朋友问沈老师,我是学统计分析的,为什么我还是不知道如何应用呢?

问题:沈浩老师,我有些问题想跟您请教一下,我现在从事的工作是互联网行业数据分析工作,我以前学的专业是统计学,但是工作中有很多多元统计方法并没有应用,虽然学了很多方法,但是在实际中还是有点不知道如何运用?我应该从哪些方面着手?请指教!谢谢!

相信,这个朋友的问题带有普遍性,其实我在前面的文章中或多或少的解释了数据分析的学习方法,但是可能还是有些建议可以给朋友们,当然,我一直强调每个人都有自己的学习路径,适合自己的才是最好的。

我经常这么说:学数学的不一定会统计分析,学统计的不一定就会数据分析!   

为什[……]

Read more

数据可视化的艺术——用图表吸引目光(二)

继续上一篇博文,我将这个图形测试剩余部分贴出来:

6、热力图的制作经常用吧,左右两个有什么区别?

点评:地理信息是可视化的重要表现形式,在数据呈现中不断增加地理信息元素是非常重要的,从事分析的人要有采用地理信息呈现的思维方式,不断提炼,日积月累就会有好的模板了!当然上面的左图依然满足简约就是美的原则,同时我们知道地图的四色原理,颜色的基本规则也是不用超过4种,不行采用渐变颜色;现在活动地图还是比较容易的,大家可以从Google Map和一些Go2map等软件截取恰当的地理信息,然后用心抠图就可以用来,当然这是比较笨但也是有效的方法,高级的可以采用PS等技术抠图啦!当然,如何让地图与[……]

Read more

数据可视化的艺术——用图表吸引目光

一直想写这样一本介绍数据可视化的书。可以介绍一些日常办公中常常用到的图表处理的技巧并且能够推荐给读者一些非常优秀的小工具,比如Xcelsius、Smartdraw、Visio、Swiff Chart、ColorWheel、Tableau、Ucinet、Excel、PPT、Mindmanager等等。

几乎所有的报告都离不开数据图表的应用,但是在图表应用的过程中似乎往往会遇到各种各样的问题。比如词不达意、数据与图形步匹配、图表配色不协调等等。所以我也想能够通过这样一本书抛砖引玉,为图表的制作提供参考。

那下面是我浏览到的一个关于图形运用的测试,非常不错,我就将其贴出与大家分享:[……]

Read more

第十一周:多元回归分析——每周一讲多变量分析

归分析(Multiple Regression Analysis)是多变量分析的基础,也是理解监督类分析方法的入口!实际上大部分学习统计分析和市场研究的人的都会用回归分析,操作也是比较简单的,但能够知道多元回归分析的适用条件或是如何将回归应用于实践,可能还要真正领会回归分析的基本思想和一些实际应用手法! 下面我们就来谈谈多元回归分析,这张图是利用多元线性回归制作的策略分析图,你可以理解X轴是重要性,Y轴是表现;

首先,多元回归分析应该强调是多元线性回归分析!强调线性是因为大部分人用回归都是线性回归,线性的就是直线的,直线的就是简单的,简单的就是因果成比例的;理论上讲,非线性的关系[……]

Read more

推荐大家读读《预知社会——群体行为的内在法则》

推荐大家看看这本书,我读了非常有感觉!

《摘录》

在纷繁的社会生活中,个体的行为是无法预知的,但是,当个体数量达到一定程度时,群体的行为反而表现得有章可循,于杂乱中显现秩序和稳定。这是为什么呢?
围绕这一问题,作者从统计物理、生物化学等自然科学中探寻其中的缘由,发现了自然与社会之间奇妙的接合点,以及它们共同的法则。从细菌生长的形态到交通流的运行,从流体相变到政治结盟,从电脑网络到市场交易,等等。莫不于纷繁多样中遵从一致的奇妙规则。
结论或许令人充满遐想,论证的过程却平易生动。作者小心翼翼地择取例证,谨慎地驱遣词句。以所有人都看得懂的方式讲述各门类的知识与道理,实属少见。
作者[……]

Read more

数据挖掘分析方法在体育运动中的应用

数据挖掘的方法不止局限于商业和科研中的应用,其实在日常的生活中,只要我们愿意思考,希望能够换一种思维来重新审视那些我们熟视的信息就可以试着联系到数据挖掘的方法。在我的博客中,有关多变量分析和数据挖掘方法的内容已经讲解了将近10周。那么在这篇文章里,我只是作一篇简单的日志,将数据分析的方法应用于体育运动中。

今年是世界杯年,那我就以足球为例。

首先我们知道每一位足球教练在比赛前对出场阵容的安排都是深思熟虑的,对阵型和战术的安排其实也是一种经验积累的过程,只不过这个知识积累的数据仓库叫做大脑。当然,优秀的教练员往往是论资排辈经验优先的,那么借助数据挖掘的技术,是不是我们也可以作一次教练[……]

Read more

回答如何学好数据挖掘

下面是一位朋友的问题,其实每天都有不少同学和朋友向我提问各种学习数据分析、数据挖掘、统计分析等方面的问题,有时候真的很难仔细回答。其实,每个人都有自己的学习路径,还有自己的知识结构和期望的职业生涯,要得到一个统一的答案是困难的!

什么是解决问题:就是在明确实际情况和期望情况之间的差异后,为消除这种差异所采取的行动!在解决具体问题时,要先明确分类问题、差异问题,最后我们才能谈论共性!

我期望解答这个朋友问题可能具有共性,放在博客中,一些见解仅供大家参考:

沈浩老师:

您好!不知道您还记得我不,我是电信的一名新入职员工,在过年前给您写过一封E-mail.我期望自己能够在企业内从[……]

Read more

第十周:多维尺度分析——每周一讲多变量分析

多维尺度分析(MultiDimensional Scaling)是分析研究对象的相似性或差异性的一种多元统计分析方法。采用MDS可以创建多维空间感知图,图中的点(对象)的距离反应了它们的相似性或差异性(不相似性)。一般在两维空间,最多三维空间比较容易解释,可以揭示影响研究对象相似性或差异性的未知变量-因子-潜在维度。
在市场研究领域主要研究消费者的态度,衡量消费者的知觉及偏好。涉及的研究对象非常广泛,例如:汽车、洗头水、饮料、快餐食品、香烟和国家、企业品牌、政党候选人等。通过MDS分析能够为市场研究提供有关消费者的知觉和偏好信息。
MDS一般需要借助SPSS或SAS统计分析软件,输入有关消[……]

Read more

基于商业智能技术的机场信息管理应用平台——动态仪表盘与数据库链接【二】

年前我的博客里面介绍过机场的商业智能平台,当时贴出了一个中央管理的界面,那我在博客里也埋了伏笔说将陆续的贴出其他的界面。在这里还是要感谢博易智讯能够在第一时间将这些页面发布到我的博客上。

如上图所示,本次所介绍的驾驶舱是关于整个机场各个航站楼延误航班情况的,使用者上至机场领导下到运营监测人员只需要轻轻一点,即可以查看任一分类的延误及滞留航班情况。

与上个仪表盘一样,该仪表盘的数据也是直接与数据仓库相连接,并且时时的刷新。测试版的刷新频率为每10秒钟一次,当看到航班信息“闪硕“的时候即数据被更新上了。测试版本数据的源文件为sql server;生产版本的源文件为Oracle。[……]

Read more

谈谈社会科学研究和方法

  按照现在的分类方法,主要有三大科学:自然科学、社会科学和人文科学;我所在的所谓研究领域应该算社会科学领域;我经常说自然科学一定是科学,否则神六就上不了天了,谁都没去过,就是科学的计算让卫星能够沿着轨道运行,分秒不差的变轨,通过仪器上的各种传感器采集数据和信息,自动化遥控;自然科学往往通过仪器测量,数据不易受人为控制,通过系统的研究输入和输出,把握内在运行机制和原理;而人文科学无所谓科学不科学,它主要是陶冶我们的情操,指引我们的方向;那么社会科学有什么特点呢?

社会科学是研究社会现象的科学,主要探讨人与社会的关系。因此,社会科学的核心研究问题是解释社会系统的活动,包括社会经济现象、社会[……]

Read more

一些有价值的定律、效应和法则(摘录)

生活和工作中知道这些知识、定律和效应,可以增加聊天的话题!当然其中许多总结出来的浅显易懂的原则在经济学、社会学、营销学和传播学领域,在我们进行交流的时候,可以用这些理论和知识,起到画龙点睛的作用!什么是理论呢?其实理论来自于社会生活中最一般的生活现象的规律性总结!
下面是摘录:(蝴蝶效应,鳄鱼法则,罗森塔尔效应,帕金森定律,手表定律,破窗理论,晕轮效应 ,霍桑效应,二八定律,木桶理论,马太效应,踢猫效应等)

蝴蝶效应:
上个世纪70年代,美国一个名叫洛伦兹的气象学家在解释空气系统理论时说,亚马逊雨林一只蝴蝶翅膀偶尔振动,也许两周后就会引起美国得克萨斯州的一场龙卷风。
蝴蝶效应是说,[……]

Read more

第九周:结构方程式模型——每周一讲多变量分析

式模型(Structural Equation Modeling,简称SEM)是一种建立、估计和检验因果关系模型的多元统计分析技术。它包含了回归分析(multiple regression)、因子分析(factor analysis)、路径分析(path analysis)和多元方差分析(multivariate analysis of variance)等一系列多元统计分析方法,是一种非常通用的、线性的、借助于理论进行假设检验的统计建模技术。

结构方程式模型与传统多元统计分析的不同,允许自变量和因变量存在测量误差(measurement errors)
模型中包含可观测的显在[……]

Read more

2009最佳科学照片揭晓:美元流动图入选

据英国《新科学家》杂志报道,由《科学》杂志和美国国家科学基金会评选的2009年度“科学与工程视觉挑战”奖(Science and Engineering Visualization Challenge)评选结果出炉,分别揭晓了图片类,图解类,信息绘图类,交互式和非交互式媒体类的五个奖项的冠军。

跟着金钱走:人类流动和有效的社区

跟着金钱走是由位于伊利诺伊州的西北大学复杂系统研究(Research on Complex Systems)小组的两名学生制作的视频作品。这一作品通过金钱的流动揭示了人类的迁徙。创作人员借助美元跟踪网站Where’s George?(美元上有美国首任总统乔治[……]

Read more

第八周:分类决策树CHAID&CRT——每周一讲多变量分析

给大家拜个晚年!

这年也过完了,又要开始工作了!本想春节期间写写博客,但不忍心看到那么多的祝福被顶下去,过节就过个痛快的节日,不写了!直接上开心网,结果开了个“老友面馆”都经营到18级了!还是蛮开心的,但是我决定了从今天开始就不再玩了!

今天我们来说说分类决策树的应用和操作!主要包括CHAID&CRT,是非常好用和有价值的多变量分析技术,

  • CHAID——Chi-squared Automatic Interaction Detector卡方自交互侦测决策树
  • CRT——Classification Regression Tree分类回归树;

CHAID和CA[……]

Read more