2010年南非世界杯正在进行,至此第一轮小组赛的所有赛事已经结束并且以西班牙爆冷负于瑞士而告终。从第一轮的结果看本届世界杯的进球数同比大幅减少,有人说这是新的世界杯用球的原因也有人说是现场的噪声所致。
既然第一轮比赛已经结束了,那也可以大概看出本届世界杯的趋势。
正好嘉实多为比赛提供了非常详尽的分析数据,从射门位置、跑动距离、防守犯规等非常详尽的数值都可以从官方网站上查询。
fifa网站非常好的设计是所有的这些数据都可以直接复制下来,拿到这些数据以后将它清洗为Excel表格;
首先,这些指标里面有很多没有分析的必要,比如乌龙球个数(仅有一个乌龙球),因此可以选择Clementine软件的特征选择对变量指标进行筛选。
根据特征选择的结果生成过滤节点,将一些对比赛结果影响不大的变量过滤掉。
选择TAN型贝叶斯网络模型:
网络模型中我们能够清楚的发现在对方半场的跑动距离是影响比赛胜负的关键指标
这个表会看么?其实就是一个多维的交叉表,其中行变量有两个,一个是比赛的最终结果一个是禁区内进球个数,列变量是在对方半场跑动得距离,表中也可以看出取胜得比赛在对方半场得跑动较少,是不是也说明本届杯赛截至目前为止胜在防守。