Twitter数据建模——预测2012美国总统选举

013-04-04 23:06 阅读(2351)评论(1)

【善科文库:2012年美国总统选举】微博和数学的力量!Twitter和微博的搜索功能可以适时地收集大量信息;而Choy等人(2011)的文章中的数学模型,成功地运用了Twitter数据预测了美国的总统人选。这里面的奥秘是什么呢?
2012年美国总统选举
使用人口普查修正的Twitter模型Murphy Choy

关键词: 数学模型, 选举, 微博
美 国2012年总统大选一直是两位主要候选人之间势均力敌的一场角逐。这期间曾有几次非常激烈的比拼。此次选举反映了选民对现任总统奥巴马任内的成就的看 法。竞选活动历时数月,活动的影响之大在互联网和Twitter上就可以感觉到。总统辩论为挑战者的竞选注入了新的活力,并使之成功地获得了一些州的选民 的青睐从而威胁到了现任总统的地位。可以在网上的讨论中,我们可以观察到大部分选民在此次选举中的态度。在本文中,我们将使用在Choy等人(2011) 的文章中的原始模型,运用Twitter的数据来预测下任美国总统人选。

简介

为 了增加竞选活动的覆盖范围,社交媒体已经被政治家们广泛使用。从2008年奥巴马总统的竞选开始,社交媒体平台一直被认为是选民参与竞选的领先平台。政治 分析家(Stirland, 2008; Pasek, 2006; Xenos, 2007)将竞选的成功归功于主动和有效地利用社交媒体平台去获取选民,尤其是经常被经验丰富的政治家所忽略或者认为不太重要的年轻一代的选民 (Pasek, 2006)。正是由于麦凯恩和佩林不善于使用社交媒体,这为奥巴马在吸引选民中赢得了整体优势并且鼓励他们投票(Stirland, 2008)。现在Twitter已经成为了政治家传播影响的首选工具。

Twitter 作为一个微博工具,所有的状态更新和发表的观点都可以用Twitter的搜索API(Twitter, 2011)搜到并提取出来。搜索功能几乎做到实时的搜索信息。政治集团和各种利益集团已经成功地用它来表达自己的观点,政治立场以及获取网友的支持。有很 多分析师认为Twitter不是非常有用(Pearanalytics, 2009),但其他一些人却称赞Twitter有巨大的潜力(Skemp,2009)。

使用Twitter的信息要实现的目标主要有两个。第一个目标是使用Choy等人(2011)提出的框架去预测新的总统。第二个目标是使用他们的方法计算州一级的信息。

美国2012年总统选举背景

自 2000年以来,美国的各种国内问题一直在总统大选中占主导地位。2012年美国总统大选的三大主要问题是:糟糕的经济状况,美国在世界上的地位以及奥巴 马的国内政策。竞选之初,现任总统的优势巨大,但接下来的几个月他的竞争对手慢慢将这个差距缩小了。两个民意调查(Telegraph, 2012; Huffington Post, 2012) 都显示在许多州选票非常接近。这次竞选被认为是十年来最昂贵且两极分化最严重的竞选。

这 次竞选的主要特征之一就是那些两极分化的州以及它们的地理位置。地理位置决定了此次竞选的270张选票中的大部分票数。奥巴马主要是依靠沿海各州以及中西 部地区,而罗姆尼则主要依赖于南部各州和草原牧区。与此同时,奥巴马在各国展开的国际公开投票中获得了赞誉和良好的民意调查。此次选举的另一个有意思的特 点是它严重依赖靠意识形态去影响和说服选民。对意识形态的争论一直很惨烈和分化。右翼的共和党和左翼的民主党形成了鲜明的对比,完全没有一个共同的立场。

选 举的关键问题是美国经济,对这个问题两党派和各自的候选人是争锋相对。在第一次总统辩论中,米特•罗姆尼针对经济疲软问题对奥巴马阵营进行了强有力的打 击。尽管新的就业形势显示了进步的态势,可经济依然疲弱,就业市场还是很差。除了重要的经济和就业市场外,其他的社会问题如移民和社会保障也对候选人很重 要。这些问题在参议院和众议院选举已经很清楚的体现过。

在下一节中,我们将讨论过去的文献对竞选结果的预测。

文献综述

Twitter 的增长吸引了来自不同学科的研究人员。在这方面已经有不少的出版物,特别是市场营销和计算机科学。一些研究人员研究了社交媒体对市场的影响 (Honeycutt和 Herring 2009; Nielsen Media Research, 2009),并发现了Twitter的强度和使用的巨大的差异。他们也将Twitter的使用归类,从对话(Honeycutt和 Herring,2009)到口碑营销(Jansen等人,2009)。这篇研究文献专注于Twitter的通用性,并不用它来进行政治方面的评估。

关 于使用网络论坛,博客和Twitter作为另一种形式的政治辩论和信息传播,现在有广泛的讨论和研究。大多数研究人员都认可了比较突出的政治博客的质量 (Woodley, 2008),而另一些却怀疑博客的能力(Sunstein, 2008)。研究表明,虽然在很多的政治论坛和博客上都有人参与讨论,但是这部分参与者却是非常少的。与此同时,在这个问题中关于Twitter的相关度 也没有额外的信息(Tumasjan等人,2010)。

目 前的文献大部分都集中在社交媒体在诸如政治,公共政策和原因等方面对公众的影响。所涵盖的文献都承认对非在线人口的政治环境的认知不足(Drezner和 Farrell, 2008)。几个案例的研究表明,网上的信息作为选举的成功指标已经相当成功。(Williams和Gulati,2008)不过,也有文献表明使用 Twitter来预测选举结果是徒劳的。(Gayo-Arvello, 2012). 还有文献对预测模型的有效性提出了质疑(Gayo-Arvello, 2012; Metaxas, Mustafaraj和Gayo-Arvello, 2011)。下面列出了不同的选举预测的核心评论(Gayo-Arvello, 2012):

  • 大多数的研究主要专注于在已知选举结果后展示结果。这一做法消弱了模型预测良好的可信度。
  • 研究没有考虑到现任的影响。
  • 没有统一的方法对推特进行建模并进行观点分析。
  • 没有共同的比较基础。
  • 使用了观点分析,但是没有合适的认识机制。
  • 所有的推特都被假设为值得信赖的,即使对伪草根行为有认知。
  • 没有使用人口统计学信息。
  • 关于政治的推特数据仅仅是由那些政治上活跃的人发布的。

在Choy等人(2011)的文中,使用了一个包含社会和人口统计,及人口普查信息的新框架,加上观点分析得到了一个能够预测新加坡2011年总统选举的模型。在下面的部分,我们将描述应用这个框架到2012年美国的总统选举并预测结果。

数据和方法

我们收集了7541470条推特,这些推特发布于2012年8月12号竞选开始至2012年10月31号。之所以收集这段时间的数据,是因为共和党总统候选 人于2012年8月11号才得到党内的最终提名,并挑选了他的竞选伙伴作为副总统候选人。竞选从2012年8月12号正式开始,一直持续到11月5号。尽 管五月份以来谁将会是共和党的总统候选人的趋势很明显,但是8月12号之前的数据还是不能很清楚的表明选民的选择。数据的采集是通过使用两位总统候选人的 唯一名称而得到的。

基 于时间长度和美国人口总数,数据的采集量是很大的。相比于德国历时一个月的竞选所采集的104003条推特数据(Tasmujan等人, 2010),此次竞选大概产生了75倍的数据。由于奥巴马对西班牙裔人口的影响,我们也尝试了收集西班牙语的数据。然而,作者并不精通西班牙语,也无法将 这些推特翻译成英文。因此我们决定只使用英语作为唯一的数据来源。我们进行了适当的数据处理,以确保有一系列适当的、纯粹的推特结果,并将之以时间顺序排 列以供分析。

为 了从数据中自动的提取出观点,一个通用的语料库被用于这项分析。网上有一些语料库和程序课用于观点分析,AFINN(Nielsen, 2011)被认为是在这一背景下最适合的。非常值得注意的是,这个语料库并没有为了分析这次竞选而做任何修改,这也确保了这个模型能够被复制在其他情形 下。社会人口统计数据和人口普查信息也被收集并用来修正在线数据的偏差。为了简化对人们的观点和对候选人选择的估计,我们假设发推特的人是诚实的表达他们 的观点。

在 Choy等人(2011)的文章中,最初的模型采用了年龄,电脑读写水平以及以前的选举信息来计算选票的份额。然而,针对美国大选,年龄层次信息却是不可 获取的。不过还有两条额外的信息可以使用。第一条信息是使用Twitter的美国人口百分比。第二条信息则是具体到各个州的互联网使用情况(美国人口普 查,2012)。这两条信息为更深入地分析社交媒体对人口的影响力提供了额外的见解。这两个信息,为我们提供了两种不同的模型。第一个模型假设 Twitter信息反映了一般网民的观点,并且twitter上的观点可以用来计算候选人的支持率。第二个模型假设twitter的影响仅仅局限于用 twitter的人,而他们之前的政党派别可以更好的对选民进行建模。对两个模型进行对比可以得到并量化出twitter对网民的影响。这将有助于回答一 些Gayo-Arvello(2011)所提出的问题。对于这个框架更详细的解释,读者可以参见Choy等人(2011)的文章。

结果

在第一个模型中,我们假设twitter中的观点反映了网民的观点。基于这一信息,结果如下:

从结果中,我们可以看到在很多州中竞选很接近。摇摆州像科罗拉多州,佛罗里达州,爱荷华州和俄亥俄州,两者的差距不到1%。我们也可以看到印第安那州更倾向 于民主党而不是共和党,这个和民意调查不一致。下面让我们来观察第二个模型,这个模型是基于以前的党派倾向而对网民进行的建模。

第二个模型预测奥巴马很轻松的以52.47%的支持率获胜。关于一些州的结果与各种机构在网上进行公开的民意调查的结果很接近(Huffington Post, 2012; Telegraph, 2012)。

结论

从结果来看,这两个模型都表明现任总统奥巴马将会赢得2012年的总统选举。虽然模型可能和最终的实际结果大相径庭,但作者希望能够验证这个模型预测总统选举结果的能力,并且结合twitter信息和社会人口信息去更准确的预测总统选举结果。

编后记

Twitter调研公司GlobalWebIndex1月28日周一发布报告称,Twitter成为发展速度最快的社交平台,活跃用户数量增长了40%。

GlobalWebIndex数据显示,与2012年第二季度相比,Twitter 2012年第四季度活跃用户数量增长40%。这相当于Twitter全球月活跃用户数量高达2.88亿,同时也意味着自2009年7月以来,Twitter活跃用户数量涨幅高达714%。

排名第二位的是Facebook,第三位是Google+,涨幅均超过30%。报告显示,中国香港地区的Twitter活跃用户数量增长最快,其次是美国,俄罗斯排名第三,中国内地第四,意大利第五,韩国第六。

GlobalWebIndex还给出了推动美国Twitter活跃用户数量增长的三大原因:

1)移动设备:多年来美国在移动互联网市场一直处于落后状态,但2012年却一反常态,活跃移动互联网用户占美国互联网用户总量的比例从37%提高到43%。此外,31%的美国移动用户使用iOS设备,因此Twitter与iOS的整合起到了推动作用。

2)55岁以上人群:55岁以上人群是Twitter上增长速度最快的人群。从2012年第二季度至第四季度,Twitter用户活跃度增长了116%,而45岁至54岁人群活跃度提升了81%。

3)大众媒体整合:电视、电影、广播、体育和广告为Twitter提供了足够的曝光率,并帮助Twitter赢得了更多用户。这种整合为人们使用Twitter提供了足够多的理由,不仅仅是社交因素。

原文链接: http://arxiv.org/abs/1211.0938v1
作  者: Murphy Choy
翻  译: 丁玖,密执安州立大学博士,南密西西比大学数学教授