前两天老朋友更夫-海鹰兄在微博上问大数据问题,联想最近很多人都在问我大数据分析,或希望培训大数据课程。
说实话,我也没有见过大数据,我更愿意说这是大数据时代!
或许是大数据太热了,啥学科背景的人都在谈论,特别是人文学者、商界人士都在谈论,说明大数据时代到了,是他们点燃了大数据时代,这该感谢!
巴拉巴西的中文版《爆发》一书出版,俺写了推荐语:
这是一个令人兴奋的时代,也是一个大数据的时代,社交媒体让我们越来越多地从数据中观察到人类社会的复杂行为模式。以数据为基础的技术决定着人类的未来,但并非是数据本身改变了我们的世界,起决定作用的是我们对可用知识的增加。
1) 数据有多大——就是用现有的软件和在可容忍的时间内处理不了的数据就是大数据,一般说来就是:G级或T级数据;但我处理过2.6亿的数据,可以用时间换空 间;大数据不仅仅是大,而是边分析边生产边应用;就像微博抓取“春晚”或您的微博,但分析过程中可能又有大量数据产生。
2) 大数据与传统统计分析完全不同了,不强调抽样,强调关系不关心因果,解决是什么,不问为什么!特别是:公开易获得、非结构化、可分析个人,强调关系,解决 的是人的数据和关系,特别是社会科学领域的数据(传统数据都是结构化的商业数据),所以大数据更关心对社会情绪、舆情、预测电影票房等,简单说:有了 FB、TW或微博才有了大数据的兴奋点
3)大数据的兴奋落地就是数据挖掘、文本挖掘和网络挖掘,挖掘是发现知识,不是传统统计的实证研究,可能没有假设!不仅有统计分析还要机器学习算法等,当然也涉及数据存储的方式,由此提到Hadoop、MapReduce、NoSQL等IT技术的变革
4) 有了微博,我们说社会科学的研究春天到了,移动应用、LBS、GIS、二维码等都包含信息数据,如果能够集中起来发现关系规则就形成了大数据时代;而且大 数据更多分析个人(挖恐怖分析),欺诈、流失、VIP、异常等,与传统统计的平均不同,产生精准、个性化推荐、协同推荐等技术
5)我一般会说是大数据时代,或者就是社会网络微博时代,或者就是数据挖掘技术!只是人文社会人士的能力点燃了这个趋势,强调了商业趋势和社会趋势,这是他们的功劳和忽悠能力
6)精准营销,个性化推荐,社会情感,社会预期,挖掘恐怖分子;当然可以用同样的技术解决传统数据问题,比如更强调可视化(信息可视化、数据可视化和互动可视化)等
7)大数据更具预测能力,传统更强调后见之明;
增加一点大数据抽样问题:
大数据要不要抽样?实践,如果读取一千万数据可能需要10分钟,当你认为抽样可以得到同样(统计)意义或预建模处理,是不是该考虑抽样了!所以建模过程一般都会用到抽样!另外,大数据往往需要过度抽样,比如放大流失样本!理论上再大的局部可能不如随机抽样有代表性
如果有10万记录,9万好人,1万坏人,把坏人样本放大到9万也是训练模型的一种思想!传统的统计分析一般是不这样!
理论上再大的局部,不如随机抽样有代表性;但大数据你可能不知道总体是啥样子,不知道总体也就无所谓抽样代表性了!