探讨文本挖掘在互连网关键词中的应用 ——以新浪体育国际足球新闻标题为例

在数据分析技术中，文本分析的使用一直是一个较少被涉及的领域，特别是有关中文文字的文本挖掘。

文本挖掘大致可由三部分组成：底层是文本数据挖掘的基础领域，包括机器学习、数理统计、自然语言处理；在此基础上是文本数据挖掘的基本技术，有五大类，包括文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理；在基本技术之上是两个主要应用领域，包括信息访问和知识发现，信息访问包括信息检索、信息浏览、信息过滤、信息报告，知识发现包括数据分析、数据预测。其中需要付出大量人力物力的是文本信息的提取及内容分类，尤其对于中文来说不同领域不同行业的关键词术语各不相同，因此，构建一个适用于不同行业的关键词库显得尤为重要。

不过基于中文的文本挖掘也有非常多的使用，比如各大媒体的2011十大关键词盘点。比如前段时间零点E-lab研究室所绘制的中国唐诗及宋词的关键词构成，非常的有趣，将古人诗歌的高频或者说比较潮的词汇都捕捉到了。并且才用网络分析图的方法将各个关键词之间的联系清楚的展现出来，甚至部分读者能够根据该网络图自己推敲出一些经典的诗句。怎么样？能够分辨出那张图是分析唐诗的，哪张是宋词么？

言归正传，笔者也在处理有关文本分析的内容，正好借此分享一下文本分析的方法。

正如前文所述，中文的文本挖掘集中在关键词库的建立，在没有专门软件的帮助下，使用“人工智能”倒是一个权宜之计。而人为建立关键词库的要点就在于编码，要求编码人员对关键词有相当的经验及足够的敏感度，如是多人编码还需考虑到团队的个性差异及分工协作等要素。

笔者选择将新浪体育网站中国际足球版面的新闻标题作为研究对象（不选国内足球的原因你懂……），希望通过文本挖掘的方法以小见大的分析发现新闻编辑的个人特点及标题撰写的“潜规则”。

首先，笔者选择了2011年7月1日至2011年12月20日的新闻标题作为研究对象，在这个时间段中包括了大型杯赛（美洲杯）、转会期、日常联赛等内容，应该说涵盖了足球活动中可能出现的大多数新闻报导，共有25,598条新闻标题。

新闻大致分为三大类，即：图片、文字、视频。

经过整理，笔者共筛选了500多个关键词，如：转会、队长、传奇、名单、大将、赞、新星、对手、训练、国脚、锋霸、点球、VS、主场、天王等等。这些关键词的筛选，笔者筛选关键词的依据主要有以下几点：

l 与体育活动相关，可是场外或者场内

l 属于日常用语，不能造词

l 需要是通过词汇，即具有普适性，比如像“贝克汉姆带儿子逛街”就不作为关键词，因为其他球员出现类似情况的概率很低。

l 尽可能多的找，然后整理。比如“小小罗”和”C罗”是同一个人，但是笔者将其作为两个关键词。

废话少说，下面就晒一下对这些词的分析结果：

概述篇下面列出三大类新闻标题的关键词排名，图片类以“庆祝“、”训练”、”进球”为代表；视频类新闻以“进球”、”破门”、”梅西”为代表，主要和球场活动有关，而与前两类有较大不同的是文字类新闻，排名靠前的分别是”梅西”、”宣布”、”首发”、”C罗”、”官方”等，包含内容较多，并且纵观整个文字新闻页面，使用的高频形容词是最多的。

人物篇在排名前20的词汇中共出现三个人物名称：”梅西”、”C罗”、”穆帅”。作为球员前两人在图片及视频中占了较大比重，而穆里尼奥是唯一跻身新闻关键词前20的教练员。

技术篇在排名前20的词汇中，涉及足球比赛描述的词汇主要集中在视频中，其次是图片，而文字新闻中场外内容占了较大篇幅。

写作篇那么，怎么写好新闻标题，或者怎样写出新浪体育的标题？为了解决这一问题，笔者将所有标题涉及的前100个新闻标题进行相关性的网络分析：

经过整理后如下，怎么样，可以汇总一条新闻标题么？

一	二	三	四	五	六	日
« 6月
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Data Is Art

Tableau，Alteryx，Knime，R，D3，Data Mining，Network，GeoSpatial，Visualization

探讨文本挖掘在互连网关键词中的应用 ——以新浪体育国际足球新闻标题为例