我在写市场研究中的多变量分析时,总是有同学问我关于数据挖掘的相关问题,我在写博客文章的时候也说要详细说说数据挖掘;什么是数据挖掘呢?如果有人问我,沈老师什么是数据挖挖掘,这个人与我的领域不相关的话,我一定会说,数据挖掘就是挖恐怖分子,只要拉登敢打电话,美国一定会从海量的通话记录中把这个电话抽出来,卫星立刻跟踪,导弹直接就下来了,这就叫精确打击!数据挖掘就是精确打击,只是拉登不会傻到直接在电话中说我是拉登,我要911,他一定说的是我们事先不知道的密语。
哪如何能够挖掘出这些密语呢?答案就是关系,规则侦测,转到商业领域就是发现商业规则,就是商业营销领域的精确制导,精确打击。只不过企业不会像抓拉登那样付出大的代价,但是企业完全可以依照抓拉登的方式精确打击每一个消费者!当然,前提要有数据信息,这个层面的数据挖掘已经到了操作型数据挖掘了,其实,我们经常讲到的数据挖掘是分析型数据挖掘!
- 数据挖掘:就是从海量的数据中采用自动或半自动的建模算法,寻找隐藏在数据中的信息,如趋势(Trend)、模式(Pattern)及相关性(Relationship),是从数据库中发现知识的过程,运用电脑存储数据和数据库技术以及使用统计分析方法工具。
我开始接触到数据挖掘是在2000年左右,当时在常规的市场研究中,企业提到内部存在大量数据库,主要是电信行业的朋友问我对数据库的分析问题。这引起我基于数据库的内部数据分析的兴趣,好在当时对数据库还算了解,查找资料接触到了数据挖掘概念。恰逢当时市场研究协会秘书长期望有此兴趣的朋友一起聊聊数据挖掘,那时我们就筹划一个数据挖掘沙龙,任命俺当个组长,(俺没当过领导,好容易当了次领导一定以身作则啦)组织大家!记得沙龙就在我们中国传媒大学我们调查统计研究所开的(那时还叫北京广播学院),参加沙龙的主要是新浪、联想、IBM、SPSS、SAS还有一些市场研究公司的技术总监和老总,大家都比较忙,没有时间准备交流的内容,俺当了领导只好第一讲我来了,之前我为此准备并做了大量的功课,从互联网上收集了能收集到了数据挖掘资料,并精心准备PPT和翻译中文表述;隔了一个月,第二次沙龙开的时候,大家又没人准备,只好我接着来,第二次我直接就用英文PPT了,也没时间翻译。虽然两次沙龙交流主要是吃饭,但我想两次我的主角讲座可能没让参加沙龙的人学到什么,反而自己变得对数据挖掘有更深刻,或者说更系统的理解了。这也算是最大的当领导的收获了。后来我就对学生讲:专家都是逼出来的,人家都说你是专家,为了背负这个美名,你只有好好学习才行!所以我也常说:好孩子是表扬出来的。
还有两个心得:
- 正好之前,在祝建华老师的香港城市大学访问,知道了收集资料的重要,学会了搜集资料,所以一定要有搜索信息和Google的能力!
- 一个知识学会了,只代表会了30%,如果能够讲给别人听,并让人听懂才说明你会了70%;所以讲课是一个非常好的学习过程!
数据挖掘沙龙两次之后,大家就比较踊跃了,记得当时SAS的刘勇,SPSS的苏立民都分别讲了Enterprise Miner,和Clementine,这两个数据挖掘工具我之前都接触过,当时对EM更熟悉些。但是在介绍Clementine软件的关联分析时,演示了购物篮分析概念!
看到这个图和分析,我立刻联系到我在祝建华老师哪里研究的信息传播模式用的Ucinet软件,社会网络分析不正好是这个分析吗!这之后我就把网络分析立刻用在了市场研究领域,收获很大,因为这是我第一次从“关系”的角度看待数据,并进行分析!
在看到这种分析方法的优势后,甚至在什么分析上都想用关联分析,比如,在一次广电总局人才调研中,我设计了人才画像的研究方法,因为大家都无法给出明确的什么是“复合型人才”的定义,但采用画像后意义就输出了!
当从关系的角度重新理解数据挖掘的时候,我看到了数据挖掘完全不同于传统多变量分析或者说统计分析的思路。当然,数据挖掘不仅仅是关联分析,还有更多的建模技术!
所以数据挖掘的基本特点是:
- 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。
- 数据挖掘所得到的信息应具有先前未知,有效和可实用三个特征。
- 先前未知的信息是指该信息是预先未曾预料到的。
- 数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识。
- 挖掘出的信息越是出乎意料,就可能越有价值.
人们最经常讲数据挖掘的啤酒和尿布的故事!
其实数据挖掘就是“学习过去经验”的简单过程;应该成为每个成功企业的常规体系;数据挖掘只是帮助企业做得更快捷、更准确和更具系统性!
先办事情去!