摘录文章:来自于科学松鼠会 http://songshuhui.net/archives/56053
作者乔纳莱勒(Jonah lehrer)
——科学界开始重新审视那些曾被广泛证明和接受的科学研究结果。
2007年9月18日,布鲁塞尔。几十位神经科学家,精神病医生以及制药公司执行官在某酒店会议室参加研讨会,这里,与会人员将听到一条让他们不安的资 讯。资讯是关于90年代初进入市场的非典型抗精神病药,这些药也被称作第二代精神病类药物。其中,商品名为安律凡/安立复(Abilify),思瑞康 (Seroquel)和再普乐(Zyperaxa)的药物曾参与了几个大型精神分裂症临床实验研究,每个都表现不俗:参与临床试验的精神病患者的症状有了 戏剧化的改善。因此,第二代抗精神病类药物成为制药公司一个盈利快速增长点。2001年,礼来制药公司(Eli lily)的再普乐(Zyprexa)的收入超过了同门师兄抗忧郁药百忧解(prozac),成为礼来公司最吸金的明星药物。
但是,布鲁塞尔研讨会公布的数据揭示了一个异常现象:药物的疗效在匀速下降。最近的一项研究发现,第二代抗精神病类药物的疗效竟大不如前:与20年前的第 一次临床试验相比,某些药物的疗效还不到以前的一半。很多人开始认为,第二代抗精神病药物的表现已经不如那些50年代投入使用的第一代抗精神病药物。 伊 利诺伊大学芝加哥分校的精神病学教授约翰·戴维斯(John Davis)认为 “事实上,有时候,第二代抗精神病药物的表现甚至更糟糕。“
就药物研发而言,只有反复的研究和测试才能确定某一药物的疗效。研究必须由不同的科学家在不同的实验室分别开展:研究人员不断地重复实验,而后发表研究结 果。而且,重复性验证是现代科学研究的基础。它也是科学界自我约束的利器:重复性验证可以减少主观干扰。比如,科学家通常知道自己想要什么样的结果,他们 的下意识会多多少少影响实验数据。而重复性验证可以甄别这些主观影响,并促使学术界改正主观因素导致的错误结果。
然而现在,事情有了新的变化。那些经过重复性验证并且发展成熟的假设正逐渐失去可信度,它们正在失去做为“事实”的资格。你想想,那些研究结果,也被多方 证明为真了,也写进教科书了,突然间就遇到拦路虎说:你不真。科研人员该多受打击?目前,可信度丧失的现象还没有正式名字,但从心理学到生态学的众多领域 都出现过这种现象。在医学领域更为普遍:不仅前文提到抗精神病药物,其他如心脏支架,维生素E和抗忧郁药等医疗方法的研究都遭遇了这个效应。戴维斯教授有 一个即将公布的分析研究证明,抗忧郁药物的疗效近几十年间降低了三倍之巨。
对于芸芸科学研究从业者而言,这个现象特别棘手,因为它揭露出了科学研究过程的问题:重复性验证到底靠谱吗?如果重复性验证是区别科学和假科学的试金石, 而现在这款试金石出现质量问题,那么,我们应该如何处理通过试金石测试而现在存疑的科研结果?我们应该相信哪一方,继续信任重复性验证还是放弃一切存疑的 结果?而且,实验研究是科学界无所不摧的利器:早期现代哲学家佛朗西斯·培根(Francis Bacon)–也是现代科学方法的开拓者,曾宣称实验是科学研究的精华,因为实验允许我们向客观世界提问。但是,现在客观世界开始乱给答案。
1980年代,华盛顿大学的在读研究生菜鸟乔纳森·斯库勒(Jonathan Schooler)发现了语言和大脑记忆的关系中不为人知的另一面。此前,人们普遍认为用语言描述可以强化人的记忆。针对此“迷信”,乔纳森·斯库勒 (Jonathan Schooler)创意地设计了一个实验研究,并证明此迷思为伪(译者注1)。他将被试者分为两组:第一组被试观察人脸,然后用语言描述;而第二组被试观 察人脸后,不需要语言描述。随后,斯库勒测试了两组被试的人脸记忆情况。他发现第一组记忆效果不如第二组,也就是说用语言描述人脸特征并没有强化记忆脸 谱。乔纳森·斯库勒给这个现象起名为 “ verbal overshadowing”,中文对应为语言屏蔽(效应)(译者注2)。(译者:这一效应被认为和目击证人的证词通常不靠谱的现象有关,因为目击证人在 向警方描述事件的时候,描述这一需要语言功能的过程影响了目击证人的记忆功能)
乔纳森·斯库勒本人因此成为了一颗学术新星,他的语言屏蔽效应论文于1990年发表后,已经被引用了400多次。不久之后,斯库勒将语言屏蔽效应模型扩展 到其他研究项目,比如记忆酒的味道,品定草莓酱,玩益智玩具等等。每一个研究项目都证实,如果被试把脑中所想说出来,他们的测试表现会很差。
但当斯库勒准备将这些新的研究结果投给有声望的学术期刊上时,他却开始有些担心:因为他后来很难重复自己的早期结果。斯库勒本人说:“语言屏蔽效应的重复 性实验中的确检测到了语言屏蔽效应,但它的效果却不大,似乎语言屏蔽效应正在丧失作用力”。 起初,斯库勒曾认为他在实验方法设计和统计分析法方面犯了错误,但经过排查他又找不到错误。最后他推测认为,可能最早的一批被试自身比较敏感,语言遮蔽效 应对他们的影响比较大。(前文提到的精神病学教授约翰·戴维斯(John Davis),推测第二代精神病类药物疗效的下降很可能是出于相似原因:最新的疗效研究中被试的精神疾病症状可能并不严重,而早期临床研究中被试的症状比 较严重。即使病人经过治疗后完全康复,新病人症状的改善也不如早期病人多。)“这个解释并不很给力,” 斯库勒说: “我的一位导师曾说过,我真正犯的错误就是试图重复我的实验,他说重复实验只会让我失望。”
后来,斯库勒试图不再纠结这个问题,他的同事也言之凿凿地说,科研中这种低重复性的事儿经常发生。后来的后来,斯库勒事业得意家庭美满,但他还在纠结实验 低重复性问题。 1995年,到底意难平的斯库勒首次重复了1990年的语言屏蔽效应研究,他发现,语言屏蔽效应缩水了30%。第二年他再一次重复此研究,发现语言屏蔽效 应又缩水了30%。其他实验室重复了斯库勒的实验,也遇到了类似的问题。语言屏蔽效应的影响力明显地衰弱了。斯库勒说:“这让我非常挫败,就好像大自然恩 赐我一个非常棒的成果,但现在它反悔了想要收回去。” 私下里,斯库勒把问题归结为是“自然界的习得性麻木”。就好像某一个体逐渐适应了某一个外界刺激之 后渐渐对这个刺激麻木无反应了。斯库勒说:“习得性麻木解释了为什么你有时不会注意到熟悉背景中的个别物体。这个变化其实是不可避免的,所以我开始淡定, 甚至开玩笑说这其实是大自然开始对我的研究产生了习得性麻木,我想它只是针对我。”
现在斯库勒博士是加州大学圣芭芭拉分校的终身教授,他有着黑色卷发和淡绿色眼睛,还有那种轻松的神态,就好像他住在自己最喜欢的海滩附近似的。接受采访 时,他会越说越走题:他可能以记忆话题开场,可突然又跳到了威廉姆·詹姆斯的名言,而这个名言又引发了他大谈特谈内省的重要性。此后不久,我们又开始看他 苹果手机里火人节的照片,这张照片才将我们的话题引回到了记忆的脆弱本质。
现在语言屏蔽效应理论已经被广泛接受:比如它经常用于目击证人作证等场合中。斯库勒博士还是对自己的遭遇有一些不平,“我知道我早该向前看,”他说,“我 真的应该停止纠结了,但我就是控制不住自己。” 那是因为他深信他自己已经被一个严重的问题绊住了,而且这个问题也影响着心理学发展。
早在19世纪30年代,这种奇妙的现象就开始“戏弄”科研人员了。比如,杜克大学的心理学家约瑟夫班克斯莱茵 (Joseph Banks Rhine)曾研究超感知觉(extrasensory perception/ESP)存在的可能性。莱茵设计了自己的研究工具齐纳牌—一套齐纳牌共有25张,五张一组,一共五组,五组分别印有五种不同的符 号。实验过程是:研究人员从牌堆里抽出一张,要求被试猜测抽出的牌印的符号是什么。大多数被试都能如预期地保证20%的正确率(通俗的说,就是五猜一,随 便乱猜就能保证1/5也就是20%的正确率)。但在首批实验中,一名叫亚当林茨迈耶( Adam Linzmayer)的本科生竟然达到了50%的正确率。更不可思议的是:林同学曾连续猜对9次,而这事的概率理论上是二百万分之一。但林同学就这么小概 率了三次(此时的林茨迈耶同学比章鱼保罗还神,因为保罗不过是每次二猜一。)。
莱茵记录了林同学的奇异表现并且准备就此发表几篇论文。但是,当莱茵开始认可超感知觉存在可能性的时候, 超级英雄林同学却突然丧失了他的赌神天赋。 1931和1933年间,林茨迈耶同学又猜了几千次牌,但他的正确率已经降到与常人无异。项目主持人莱茵不得不承认:林茨迈耶同学的超感知能力的确急剧下 降。当然,林同学的故事并不是个案,莱茵和其他研究超感知觉的学者都记录到了相似的案例。莱茵将这种现象—效应量随时间流逝而戏剧般下降—命名为 递减效应(Decline effect)。
斯库勒教授对莱茵的研究困境很着迷,因为他找到了一个同伴:另一个遭遇递减效应的悲催学者;而且莱茵的研究也经常悲剧。2004年,斯库勒教授开始模仿莱 茵的研究,讽刺的是,他试图重复实验的不可重复性,也就是说,斯库勒的目的就是实验重复不出来。同时,为了表达对莱茵研究兴趣的尊敬,斯库勒教授决定研究 另一种心理玄学现象--预知能力(precognition)。他的实验设计是:被试们首先看到一组图片在眼前快闪,随后他们会被要求指认出来图片。当 然,大多数被试并没有记住图片,因为图片闪现的时间太短,来不及在大脑中留下印象。随后,斯库勒随机选择图片中的一半播放给被试,并测试被试指认图片的结 果。他想知道:那些被播放两次的图片,在第一次播放的时候,被指认出来的概率会不会更大。也就是说,被试会不会“提前感知了”第二次看到的图片,而在第一 次看图片的时候就指认出来。第二次观看图片会不会逆时间流回去影响第一次指认图片结果?
这个假设的疯狂之处在于,斯库勒知道预知力没有任何科学依据。可这次他并不是要验证超感知觉能力,而是要测试递减效应。斯库勒说: “刚开始时,如我们预 期的,数据看起来很喜人,但我不能相信我们发现了那么多预知力显灵的例子,但随着实验的进行,递减效应开始显灵了:效应量开始下降。(效应量是统计学中用 于衡量处理效应大小的指标。)课题组招募到两千多名本科生参与实验。斯库勒说,“实验进行到最后,我们的结果看起来与莱茵的结果无异,像莱茵一样,我们 “发现”了预知力存在的“证据”,这个发现昙花一现后又主动抛弃了我们。”
递减效应最可能的解释是:均值回归:既,早期实验中“侥幸”获得的阳性数据开始与后期得到的“阴性”数据正负抵消。斯库勒预知力研究中的被试者并没有“丧 失预知力”,他们不过是被更多“无预知力”的数据遮盖了。同时,斯库勒还注意到遭遇递减效应的数据组是通过统计学检验的。也就是说,数据量是足够大的,所 以均值回归的影响不应该这么强烈。斯库勒说:“数据通过了所有的(统计学)测试,理论上说,它们是无意义的随机数据的概率只有百万分之一。所以,递减效应 是不太可能出现的。实际上,它却经常显灵。而且我人品不好赶上了好多次。” 斯库勒博士认为递减效应该得到更多的关注,因为四处招摇的递减效应正在挑战统计学。斯库勒说“每当我讨论递减效应时,学者们总是觉得不安。我还是想弄明 白我的数据到底怎么了。和大多数学者一样,我认为随着个人成长,我的研究工作会越来越轻松,因为我的实验技巧越来越好,研究语言屏蔽效应的实验设计也会越 来越好。但为什么总是事与愿违呢?我相信我们可以用科学的研究方法解开这个谜题,但在此之前,我们必须承认,我们面临的是一个真正的困境。”
1991年,丹麦动物学家安德斯默勒( Anders Møller)在瑞典乌普萨拉大学做研究时,做出了一个不错的发现。这个成果的关键词是,家燕,交配和身体对称。传统上认为,生物个体的身体对称性与其基 因组突变量是直接相关的。越多的基因突变意味着更多的“波动性不对称”。(测量人类波动性不对称的一个简单方法就是对比双手的手指长度)。安德斯默勒的发 现是,雌性家燕非常愿意与羽毛又长又对称的雄家燕交配。这意味着,挑剔的雌性家燕用雄性家燕羽毛的对称性做参考,来衡量雄性基因的好坏。默勒的这篇研究论 文发表在引无数大牛尽折腰的《自然》科学杂志上,引发了相关领域中一场狂热的研究竞赛。因为学者发现可以用一个简单且适用性广泛的参数来衡量基因质量,而 且雌性/女性也会被这些参数的特征吸引。某种程度上说,审美是由基因推动的。
随后的三年,交配选择中波动性不对称领域兴起了十个独立的研究项目,其中九个发现了雄性的身体对称性和求偶成功率之间有联系。这九个研究中,从果蝇体毛研 究到家燕身体对称性的重复性研究,科研人员发现,雌性动物总是倾向于与身体左右对称的雄性交配。不久之后,这个理论被用来研究人类的婚配选择。学者发现, 女性更喜欢那些身体对称的男性的气味,有意思的是,人类女性的只在排卵期表现出这种倾向。还有,男性的身体对称,他的女性伴侣性高潮的次数更多。罗格斯大 学的一个人类学家公布:他研究了40个牙买加舞动作,发现身体对称男性舞者往往被评为好舞者。
但是,好景不长,这个理论也遭遇了危机。1994年,这个领域有14篇论文发表,其中8篇文章证实了身体对称和交配选择有关联。1995年,8篇发表的论 文,只有4篇有了阳性结果。1998年,12篇波动性不对称的文章中,只有三分之一声称佐证了波动不对称理论。更糟的是,阳性结果研究的效应量也在下 降:1992到1997年,波动性不对称课题研究中的平均效应量下降了80%。
波动性不对称理论的遭遇只是个开始。2001年,澳大利亚国立大学的生物学家迈克尔詹尼恩斯,分析了生态学和演化生物学研究结果随时间变化的趋势。詹先生 收集并研究了上百篇论文和44篇统合分析论文(译者:统合分析(meta-analysis)是对相似/相同课题的研究结果以统计学的方法进行总结分 析)。总结分析后,詹先生发现了递减效应的身影:很多理论被时间洗去了存在价值。而且,詹尼恩斯设法排除许多变量的干扰。(比如,同一作者发表的几篇相似 文章如果都计入统合分析,数据的重复使用会干扰分析结果。)即使如此,詹尼恩斯还是发现:科学假设的有效性通常在一年内显著下降。詹先生承认他的发现很棘 手,但他却不愿意公开讨论这些。
詹先生认为:“对于科学家来说,这个话题很敏感,因为科学家的责任就是解决那些长期困扰人类的谜题,并创立永恒理论, 但是当你看到这些递减效应的影响时,你突然间开始对这一切产生了怀疑。”