数据挖掘分析方法在体育运动中的应用

数据挖掘的方法不止局限于商业和科研中的应用,其实在日常的生活中,只要我们愿意思考,希望能够换一种思维来重新审视那些我们熟视的信息就可以试着联系到数据挖掘的方法。在我的博客中,有关多变量分析和数据挖掘方法的内容已经讲解了将近10周。那么在这篇文章里,我只是作一篇简单的日志,将数据分析的方法应用于体育运动中。

今年是世界杯年,那我就以足球为例。

首先我们知道每一位足球教练在比赛前对出场阵容的安排都是深思熟虑的,对阵型和战术的安排其实也是一种经验积累的过程,只不过这个知识积累的数据仓库叫做大脑。当然,优秀的教练员往往是论资排辈经验优先的,那么借助数据挖掘的技术,是不是我们也可以作一次教练员?安排一次首发阵容?

比如,我选择PASW(原SPSS)这款软件的回归模块来分析球员出场时间对球队胜负关系之间的联系。

首先,我从网站上搜集了一个球队各个球员的出场情况以及最后比赛的结果,用变量Result表示。当然结果只有三种:胜、平、负,分别用:3、1、0来表示。

数据处理了以后,因为每场比赛的时间都是0-90分钟,那也不需要对数据进行标准化的转换了。下面可以选择线性回归的方法来观察球员出场时间与比赛结果之间的影响。

    其中,Result(比赛结果)作为因变量;球员作为自变量。
    从上面的表格来看模型不够好,结果不显著。那么从回归系数上看,不同的回归系数还是把球员对球队的贡献略有区分。那么我还可以将各个球员的平均出场时间与回归系数制作成一张散点图。
当然有时间的话可以将散点图略微美化,并且划分四个象限。
    那么,出场时间长,对球对贡献高的球员是否可以作为核心的球员呢?
呵呵,是否金球奖的评选也可以参考这种回归的思路呢?这种分类方式是否真的能够被教练员采纳呢?应该说很难,当然当我们将模型优化,增加更多的分析变量以后也许会称为一种参考标准。通过这个案例我与大家一起探讨一下数据挖掘的应用,其实就是玩数据。

大家可以想一想应用领域:
1-可能上面的数据采用回归,尤其是线性回归,可能不是一个好的选择,是否可以考虑采用判别分析呢?
2-如果在狭义数据挖掘领域,神经网络或贝叶斯估计是否更加智能?至少是非线性!
3-如果能够扑捉一个球队彼此传递球的关系,是否能够分析球队合作模式,以期望找到球队的核心、协调人以及战术模式;(我印象中有一帮人专门针对NBA进行分析的)