行业新闻
行业新闻News
谷歌搜索:美国选举中的“水晶球”
发布时间:2012-10-24 14:16:53    |     浏览次数:
谷歌搜索:美国选举中的“水晶球”

 

透过谷歌(微博)搜索预测美国大选结果 (腾讯科技配图)

腾讯科技讯(童云)北京时间10月23日消息,《纽约时报》网络版近日刊载哈佛大学经济学博士研究生赛斯·史蒂文斯-大卫德维斯(Seth Stephens-Davidowitz)的文章称,谷歌可以说是美国选举季节中的“水晶球”。史蒂文斯-大卫德维斯在文中表示,他使用从数百万次谷歌搜索得来的匿名综合数据来对敏感话题的变量进行了衡量,这些搜索数据来自于美国数以百计的媒体市场。以下是这篇文章的全文。

在每个选举季节中,民意测验专家都会尝试推定一场尚未发生的选举中选民的人口统计学构成;但在每一个选举季节中,民意测验专家都会遭遇有关他们预测错误的指责。共和党对2012年的民意测验提出了批评,称其假设非洲裔美国人参与选举的人数仍将维持在2008年的水平;民主党则批评称,2012年的民意测验假设非洲裔美国人参与选举的人数将低于以前的水平,而这只是人口统计学数据的类别之一。

选民人数是很难预测的,原因是人们不愿承认自己不会投票。据最近公布的一项估测数据显示,在最终不会投票的选民中,有三分之二会在此前向民意测验专家称其将会投票。

在我从事的经济学工作中,我使用从数百万次谷歌搜索得来的匿名综合数据来对敏感话题——比如说种族、毒品交易而儿童虐待等——的变量进行了衡量,这些搜索数据来自于美国数以百计的媒体市场(Media Market)。在这些话题上,人们倾向于不太乐于提供消息。

我的研究显示,通过对今年截至目前为止的选举相关信息的谷歌搜索次数与此前选举季节中可比日期的搜索次数作出的对比,我们或许已可对2012年大选的人口统计学构成有很好的理解。虽然谷歌搜索无处不在,而且搜索者已经显示出在谷歌上分享真实感觉和毫无拘束的想法的意愿;但在政治分析中,美国人在进行搜索时会输入什么信息则仍旧令人惊讶地处于未被充分利用的状态。不过,谷歌经常都能提供在其他地方所无法获得的洞察力。

从我们已知的信息来看,有些搜索查询是很傻的。在每个月中,都有大约5000人会通过谷歌查询(美国总统共和党候选人)米特·罗姆尼(Mitt Romney)的内衣裤选择(罗姆尼是摩门教徒,而虔诚的摩门教徒会穿庙宇服装)。在2008年的大选日,大约有百分之一的谷歌搜索查询请求中都包含“Obama”(奥巴马)这一关键字,而同时还包括“KKK”(3K党)或“nigger”(黑鬼)等关键字。

人们的思想经常都会是很肤浅的。就目前而言,“光身保罗·莱恩”(Paul Ryan shirtless,莱恩是共和党议员,副总统候选人)的搜索查询量要比“保罗·莱恩预算”(Paul Ryan budget)高出9倍。不要问我为什么,但有一个事实是在蓝州(民主党领先的州)中,“光身保罗·莱恩”的谷歌搜索查询量要高于红州(共和党领先的州)。当人们以“米歇尔·奥巴马”(Michelle Obama)为关键字进行搜索时,同时加入关键字“丑”(ugly)的搜索查询量要比同时加入关键字“美”(beautiful)多两倍。

政治家可以通过观察候选人在谷歌上被叫做什么来判定其在特定地域中的人气度。在蓝州中,“奥巴马”的搜索查询量要更高一些,但在红州中“巴拉克·侯赛因·奥巴马”(Barack Hussein Obama)的搜索查询量会更高一些——正如在蓝州中“威拉德·米特·罗姆尼”(Willard Mitt Romney)的搜索查询量会更高一些那样。

与此同时,一个州的用户通过谷歌搜索“奥巴马笑话”(Obama jokes)的次数也对2008年总统大选另一名候选人约翰·麦凯恩(John McCain)的得票比例作出了几近完美的预测。在爱荷华州和俄亥俄州,“罗姆尼笑话”(Romney jokes)的搜索查询量很高,这种“笑话”主要集中在罗姆尼的财富上。在这两个州里,罗姆尼一直都面临着难以与工薪阶层选民取得联系的困境。

谷歌的搜索数据还给出了其他的一些证据,表明最后关头的传言在2008年大选中起到了负面效果,导致奥巴马在奥克拉荷马州、田纳西州和肯塔基州等多个州的最终民意调查中的得票表现略微下滑。谷歌搜索数据提供了一种相当有趣的相关性:在这些州里,“奥巴马穆斯林”(Obama Muslim)的搜索查询量是最大的。这些搜索查询量在当年的整个夏天和秋初都不是很大,但在竞选活动的最后几天时间里则大幅增加,那时许多最终民意调查都已经结束。

将人们通过谷歌进行搜索的时间与外部事件进行比对经常都会是一件很有趣的事情。在麦凯恩令人争议地选择时任阿拉斯加州州长的萨拉·帕林(Sarah Palin)为竞选伙伴的当天,“麦凯恩预期寿命”(McCain life expectancy)这一关键字的搜索查询量上升至前所未有的水平。在帕林接受凯特·库里克(Katie Couric)采访时,这一搜索查询量又再次上升。

谷歌的搜索数据可能还有助于我们对2012年大选的人口统计学构成作出预测。在投票意向这一方面,选民有可能会有组织地欺骗民意测验专家;但实际上会参与选举的选民更有可能在选举以前搜索“如何投票”或“到哪里投票”等关键字。

在10月中旬以前对“vote”或“voting”等关键字的谷歌搜索查询量进行统计,然后将其与四年以前同期的数字进行对比,就可预测参与选举的人数是将增加、持平还是下降。在2008年10月份的上半个月时间里,如果投票信息的搜索次数高于2004年10月份上半个月时间里的次数,那么2008年选举季节里的投票率也将高于2004年。对于中期选举来说,这一规律也同样适用。如果在2010年10月份的上半个月时间里,有关投票信息的搜索次数高于2006年10月份的上半个月,那么2010年的投票率也会倾向于高于2006年。

与我们用来预估地区级别的选举参与人数的其他变量(比如说登记率的变化,或是早期投票程序中的活动等)所具备的预测能力相比,谷歌搜索能提供的这种预测能力要高得多。通过对搜索查询量与地区级别的人口统计学数据进行对比的方式,我们能利用这种信息来对不同人口统计学群体的选举参与率作出预测。

为了说明这种方式是如何运作的,不妨设想一下,在2008年的这个时候,谷歌搜索数据原本会向我们展示些什么。在那个月中,投票相关信息的搜索次数略微低于2004年10月份的水平;但是,就谷歌搜索查询量高于四年以前的州而言,那些州几乎都是非洲裔美国人所占比例最高的州——北卡罗来纳、乔治亚和密西西比州等。而在这些州的内部,非洲裔美国人较多的媒体市场——比如说北卡罗来纳的洛利杜罕都会区(Raleigh-Durham)、乔治亚州的奥古斯塔(Augusta)和密西西比州的杰克逊(Jackson)等——从2004年10月份到2008年10月份之间的投票相关搜索查询量的增幅是最高的。举例来说,杰克逊媒体市场上的非洲裔美国人所占比例为47%,其搜索查询量的增幅为56%。

换而言之,通过对谷歌搜索数据进行分析的方式,我们原本可以做出一种不会令人感到吃惊的、而且最终会被证明是正确的预测,即与2004年相比,2008年中参与选举活动的黑人比例会大幅增加。

这种方法原本还能准确地预测到西班牙裔美国人参与选举活动的比例会略微增长。在西班牙裔美国人所占比例较高的某些地区中,2008年通过谷歌来搜索投票相关信息的查询量比2004年有所增长,只不过这种正比关系不象在非洲裔美国人中表现的那样有力而已。

2008年10月份中的谷歌搜索数据并未正确预见到选民的年龄构成。在大选以前,有人宣称奥巴马的得票率将导致年轻选民人数大幅增加;但在那一年的10月份,在18岁到34岁之间的年轻人所占比例的媒体市场——比如说佛罗里达州的盖恩斯维尔(Gainesville)和盐湖城等——上,通过谷歌搜索来寻找投票相关信息的查询量并未出现很大的增长。在2008年中,年轻选民人数的增幅不像原本预期的那样高。

那么,在今年10月份到目前为止的时间里,谷歌搜索对2012年大选给出了什么样的提示信息呢?几乎没有证据表明,今年的选民比例对民主党或是共和党更加有利,这与2008年时谷歌搜索给出的信息有所不同。跟往常一样,谷歌搜索数据表明有些地区的选民人数将会有所增加,而有些地区则将减少。有趣的是,2012年俄亥俄州的选民人数预计将高于2008年和2004年。

当然,未来还有两个星期的时间能供选民进行搜索。而且,我正在使用的这种方法是一种全新的方法,还有许多的不足之处。但是,到目前为止我们所看到的不同之处看起来还无法让我们预计人口统计学数据会发生很大的改变,从而对大选的结果造成重大的影响。

平均来说,在黑人人口比例最高的地区中,今年通过谷歌搜索来寻找投票相关信息的查询量与2008年类似,而不是与2004年类似。通过这一衡量标准来看,看起来民意测验专家应该假设今年黑人选民所占比例类似于2008年的水平,当时非洲裔美国人在选民中所占比例为12%,而2004年为11%——对于奥巴马来说,这应该是个好兆头。

但从谷歌搜索的数据来看,对罗姆尼而言也有好消息:在爱达荷瀑布市(Idaho Falls)和盐湖城这两个摩门教徒人口比例最高的媒体市场上,投票相关信息的搜索查询量有所增加。虽然爱德华兹和犹他州都并非“摇摆州”,但摩门教徒选民人数的增加可能在两个重要的“摇摆州”中对罗姆尼形成帮助,即内华达州(7%摩门教徒)和科罗拉多州(3%摩门教徒)。

罗姆尼的支持者可能还会对一个事实感到高兴,那就是在福音派信徒人数比例最高的某些地区中,投票相关信息的搜索查询量也同样有所增加。举例来说,谷歌搜索数据预测,德克萨斯州的卢博克市(Lubbock)和肯塔基州的帕迪尤卡(Paducah)的选民人数都有可能会有所增长。这可能会减弱共和党内部的一种担忧情绪,即福音派选民人数将会由于对罗姆尼信仰摩门教心存疑虑而有所减少。

谷歌搜索数据显示,几乎没有证据表明选民的年龄构成会发生重大改变:在18岁到34岁之间年轻人所占比例较高的地区中,投票相关信息的搜索查询量没有发生重大的变化,这一人群倾向于支持奥巴马;在65岁或以上的老年人所占比例较高的地区中,搜索查询量同样也没有很大变化,这一部分选民则倾向于支持罗姆尼。

2012年10月份到目前为止,西班牙裔人口所占比例较大的地区中的搜索查询量与2008年10月份同期相比略有减少。虽然奥巴马比罗姆尼在西班牙裔美国人中更受欢迎,但到目前为止,这种相关性的规模还比较小,因此不会让奥巴马感到非常担心。在未来两个星期中继续监控谷歌搜索数据可能会告诉我们,这是否会变成奥巴马竞选活动中一个更加令人担心的因素。

奥巴马的对手们希望,2012年的选民将不会象2004年的选民那样支持民主党。而我对谷歌搜索数据作出的早期分析表明:不要指望那一点。