转载:[小红猪]真理在缩水--现代科学研究方法并不尽善尽美?(下)

摘录文章:来自于科学松鼠会  http://songshuhui.net/archives/56338

澳大利亚西澳大学的生物学家利 西蒙斯( Leigh Simmons)提出了他自己的解释。当他跟我讨论他曾经对波动性不对称理论的狂热时,他说:“我曾经对波动性不对称感到非常兴奋。在早期研究中,波动性 不对称的效果显得特别显著。” 当时他决定自己也做几项研究,来看看天牛的对称性。“然而不幸的是,我的研究没有发现波动性不对称效应,“西蒙斯说 ,”但最糟糕的是,我的研究结果是“无意义的”,这是很难发表的。因为大多数科学杂志只想要确定的结果。能确定地证伪一个理论是挺轰动的,如果不能证伪, 至少要能确定地支持一个理论。 对于西蒙斯来说,窜红并渐渐过气的波动性不对称理论是科学发展模式的一个典型例子:作为一个曾经的学术明星,它既指导又限制了科学研究:当这个学术超新星 理论被提出来的时候,论文的同行评议者们总是对阳性结果的作证性论文更宽容。风水轮流转, 曾经的明星理论面临着身败名裂的危机,证其为伪的论文开始受欢迎。

    与西蒙斯的解释相似,詹尼恩斯认为递减效应受了“发表偏见”影响。或者说,科学家和学术论文杂志编委会更喜欢佐证性的阳性结果而不是“无意义的结果”。 1959年,统计学家西奥多 斯特林( Theodore Sterling)确定了“发表偏见”的影响。 斯特林发现97%的心理学论文都是有显著统计学意义的。显著的统计学意义的解读是:研究数据是偶然获得的概率小于5%。这个测试科学研究是否具有”统计学 意义”的方法是由英国数学家 罗纳德 费希尔( Ronald Fisher)在1922年创立的。 费希尔选定了5%作为“统计意义”的阈值。也有人认为5%的选择不过是让笔算更容易些而已。斯特林认为,97%的心理学论文都在证明假设而不是证伪,说明 要么是心理学发展走狗屎运要么是学者们只发表阳性结果(译者,显然后者的可能性更大)。最近几年,医药界研究人员认为“发表偏见”极大地影响了临床研究。 因为利益驱动的制药公司不愿意发表他们不喜欢的结果:即那些证明药物效力低或者无效的临床研究结果。即使那些利益纷争较少的学科—比如心理学和生态学 —也逐渐受到“发表偏见”效应的负面影响。(别忘了,他们也是一群追逐文章数量的悲催团体)

    虽然几乎可以确定“发表偏见”推动了递减效应的发展,但它并不能解释一切。比如,某些项目的早期研究结果是阳性的,但并它们从来没被发表过。显然这些数据 不会受“发表偏见”影响。还有,斯库勒的悲剧也不能用“发表偏见”解释。曾经研究波动性不对称的阿尔伯塔大学生物学家 理查德 帕尔默( Richard Palmer)怀疑:有人选择性汇报数据,帕尔默的主要证据来自一种统计学工具:应用漏斗图统计分析法。一般而言,某一领域会集中许多研究项目,理论上, 这些项目的研究结果是可以按图索骥的:样本量大的研究结果集中在一个数值附近;而样本量较小的研究结果应该是随机分布的,因为它们更容易受到抽样误差影 响。如果用一个点代表一个研究项目的结果,并做出一张二维图,这些点的分布有点像一个漏斗。

    利用“应用漏斗图”作图分析可以直观地发现“选择性报告”的影响。帕尔默收集了所有的波动性不对称研究,并作“应用漏斗图”分析。他发现小样本量的研究数 值分布并不随机,而是向阳性结果的方向剧烈倾斜。帕尔默在其他领域也发现了类似的问题。他说:“当我意识到“选择性报告”在学术界其实很普遍的时候,我的 确很沮丧,做为一个研究学者,你知道总会有一些非随机因素或多或少地影响研究过程,但你却不知道这些影响有多大。” 帕尔默最近的一篇综述文章总结了“选择报告”效应在他研究领域的影响:“我们不能逃避这个困境:一些,甚至很多被奉为圭臬的“理论”,其生物学意义其实不 过是被过分夸大了;最糟则可能仅仅是重复的主观偏见累计而成的错觉。

    帕尔默总结到,“选择性报告”效应并不是科学方法的错误,而是学者们在努力解释数据时犯的一种微妙的过失,或者 说,是无心的错觉。斯蒂分 杰伊 古尔德则把这个过程类比为用鞋拔子穿鞋。西蒙斯说“科学测量过程确实很难。比如波动性不对称理论的主要内容是观察动物身体左右两部分间的微小区别,比如一 片尾羽毛上毫米大小的差异。进一步说,很多研究者知道他观察的雄性个体基因是好的—-因为它经常成功交配—-所以他们就假定这个y染色体动物的身 体是对称的。所以,波动性不对称理论的研究很容易受主观偏见影响。这么说并不是诚心挑刺,它是人类的自然本性的表现”

    这里有一个典型的“选择性报告”的案例:即在不同国家进行的针灸实验。大多数亚洲国家中,针灸的应用和接受度是相当广泛的。而西方国家中,使用针灸还存在 争议。这点深深影响了针灸临床实验。1966到1995年间,中国,台湾,日本等地一共进行了47项针灸研究,而且每一个研究都证明针灸是完全有效的。同 一时期,美国,瑞典,英国等西方国家举行了94项针灸临床实验,只有56%的研究得到阳性结果,即针灸作为医疗手段是有效果的。按照帕尔默的假设,针灸临 床实验结果的分歧佐证了一个推测:科学家总想证明他们喜欢的假设,并且选择性地忽视掉不喜欢的假设。所以说,我们的信念是盲从的

    斯坦福大学的流行病学家约翰 ·艾奥尼迪斯(John Ioannidis)认为,选择性报告等主观倾向极大地影响了生物医学研究。他说“这些解释了递减效应广泛发生的原因。其实如果初始的研究给了一个准确的 结论就够了,但是现实往往事与愿违。而现在,由于被前期论文结果误导,我们浪费了很多财力在医疗和追踪研究上。”  2005年, 美国医学学会期刊上发表了艾奥尼迪斯的一篇文章。这篇文章总结了三大主流医学杂志中49篇被引用次数最多的临床研究文章。其中45%的文章汇报了阳性结 果:说明这些项目研究的治疗方法是有效的。而且这些研究都是随机对照实验–医学研究的葵花宝典—这些研究结果往往会深刻地影响临床治疗,并让某些治 疗方法迅速推广。比如更年期妇女的激素替代疗法,日常服用低剂量阿司匹林以预防心脏病和中风。但是, 艾奥尼迪斯得到的数据却有些令人不安:49篇文章中,34%的研究需要重复实验验证,还有41%的研究要么被后来的研究否定要么效应量下降。

     那些流行的研究课题现状更糟。比如,最近很流行的一个课题是:男女两性因基因差异导致的疾病风险差异研究。被研究的基因包括增加精神病风险的突变基因和控 制高血压的基因。流行病学家 艾奥尼迪斯和他的同事研究了432个课题,发现大多数研究都有严重缺陷。当他调查实验的重复性的时候,他发现 问题更严重:432份研究中,只有1个研究被认为是可重复的,艾奥尼迪斯说:“这并不说明所有的研究都是不对的,但因为这些研究做得那么差,我还是保留意 见。”

    根据艾奥尼迪斯的说法,主要的原因是很多学者在追求“具有统计学显著意义”的数据,或者说仅仅是为了那些通过统计学显著性检验的数据找科学解释而已,即那 些通过罗纳德费希尔( Ronald Fisher)设立的95%置信区间检验的(就是那个5%的底线的另一种说法)。艾奥尼迪斯说:“科学家急切地希望数据能通过统计学显著性检验,所以他们 开始用自己的数据做文章,搜肠刮肚地试图找到一些看似有道理的科学解释。”  最近几年,艾奥尼迪斯开始越来越严苛地批判这种风气。他被引用的最多的一篇文章的标题有些挑衅味道:《为什么大多数发表的论文都是假的》。

    “选择性报告”其实源于人类的基础认知缺陷:因为我们喜欢被证明正确而不喜欢被证明错误。 艾奥尼迪斯说:“证明一个假设为真的感觉真的是太好了——特别是当你的职业发展和个人经济条件都与这个新发现有关的时候。这就是为什么,一个假设被系统地 证明为伪,你还是能看到一些不到黄河不死心的顽固学究引用早期研究文章的显著性阳性结果,因为他们想相信这个假设是对的。” 比如,现在仍有很多人执着于激素替代疗法或者那些维生素功能的研究。

    所以斯库勒认为,发表文章之前学者必须更严格地收集数据。他说,“我们为追踪过去那些不完善的研究和设计缺陷的科研项目浪费了太多时间。我们对重复性验证 的纠缠不休,正干扰我们解决真正的问题。” 斯库勒解释说,很少有人尝试去重复研究那些已发表的论文,因为数量太大了。(《自然》杂志说,迄今为止,三分之一的论文从来没有被引用过,更别说被其他重 复性验证了)。斯库勒说,“ 我学到的教训是:研究中必须一直很小心。所以,每一个研究者应该提前说明他们的实验设计,比如:将用多少被试,他们的测试项目是什么,有效论证数据应该由 什么组成。这样,我们的实验研究才会更透明。”

    斯库勒的下一篇论文将建议建立一个开放数据库。这个数据库要求科研人员们概述实验设计并记录所有的数据。斯库勒说,“我认为建立了这个数据库,会提高科学研究工作的门槛,也会让我们更好地判断实验质量,这个平台能最终帮我们解决递减效应造成的问题”。

    这些建议可能会减轻“发表偏见”和“选择性报告”的影响,但这些并不能完全消除递减效应。因为科学研究其实更多地被一些人力不可控制的力量影响:比如,不 能做到100%纯粹的随机取样研究。目前关于研究中随机和偶然事件的负面影响的研究并不多,现存的相关研究也并没有解决问题。

    1990年代,俄勒冈卫生科技大学的生物学家约翰克拉布( John Crabbe)通过实验证明,未知随机因素的确可以颠覆重复性验证的可靠度。约翰克拉布在三个不同的实验室——分别位于美国纽约州的奥尔巴尼,俄勒冈洲的 波特兰,加拿大亚伯达省埃德蒙顿市——做了同一系列的实验研究老鼠行为。实验启动之前,克拉布尝试把所有他能想到的变量都调整成一模一样的。比如,老鼠是 一个品系的近亲,同一天从同一个供货商出发,它们在一样的环境中长大;老鼠住的盒子底层铺的锯末是同一个牌子;荧光灯的照明量是一样的;每一窝老鼠的数量 是一样的;饲料的量和品种也是一样的;接触老鼠时戴的手套是同一个牌子;测试的设备也一样,测试研究的时间都是在早上的同一时间。

    这个实验的预期就是每个实验室的独立实验能得到相同的结果,克拉布说:“如果真的有一种实验设计能通过所有的(可信度)检验,那必然将是这次,但事与愿 违。”按照实验设计,克拉布给被试老鼠注射了可卡因。老鼠嗑药后会很兴奋,活动量会增加,研究人员测量老鼠活动的距离来衡量活动量,即兴奋程度。实验的结 果是:在波特兰嗑药的老鼠比平时多活动了600厘米,而它们在奥尔巴尼的亲戚则多运动了701厘米,但是在加拿大埃德蒙顿市嗑药的老鼠则比正常状态多活动 了5000厘米(没错,三个零)。而后续的老鼠焦虑行为实验,也出现了相似的问题。而且这些出入并不能用已知的理论解释:在波特兰实验室中表现得最焦虑的 老鼠是一个品系,而在奥尔巴尼确是另一种。

    克拉布的实验很不厚道地指明了一点:很多名声一时的数据不过无意义的背景噪音。埃德蒙顿市“药来疯”老鼠的过分 活跃并不能证明什么:这组数据不过是一个无意义的离群数据;一个被未知变量所影响的副产物。问题是,这个数据很有可能发表在有声望的杂志上,因为这个结果 又惊异又具有“显著的统计学意义”。可以想像,这个数据发表后,很多跟屁虫会出现,然后申请经费,进行后续研究什么的。这可能导致科学上的错误,指不定多 少年才会被人发现。

    所以说,所谓“递减效应”不过是错觉的递减。卡尔波普爵士(Sir Karl Popper)认为一个确定的实验就可以证伪一条理论,比如伽利略用一个下午就推翻了亚里士多德力学,可现实中的情形却更为复杂。更糟糕的是,很多被多次 证伪的假设依然被视为正确的:语言屏蔽效应也许遭遇了递减效应,但它的影响力并没有“被递减”。除了本文开头讨论的第二代抗精神病类药物,递减效应也影响 了物理学研究:1969到2001年,物理学家发现中子衰减时的弱耦合比率已经降低了10个标准偏差;万有引力似乎不再“万有”:物理学家曾在美国内华达 的沙漠钻深洞研究万有引力,得到的实验数据与理论值有2.5%的偏差。但是,第二代抗精神病药物依然广泛地用于治疗,中子模型也没有变。万有引力理论依然 是原来的样子。

    这些不正常的结果都展现了经验主义变化多端的一面。尽管一些科学假设最终走向效应量下降或者自我矛盾的死胡同,它们还是被写进了教科书,并左右当今的医疗 准则。为什么?因为这些观念看起来是“正确的”。因为它们“有道理”。因为抛弃这些我们的代价会很大。这才是递减效应非常棘手的原因。不是因为递减效应揭 露出科研中的人类天性犯下的错误:比如数据被调整,主观偏见影响客观结果(科学家也是人,他们犯这种错误并不奇怪);也不是因为递减效应打破了我们误信的 “真理”的光辉。(这种想法可以上溯至科学哲学家托马斯库恩(Thomas Kuhn)对科学概念演化的思考)。递减效应之所以棘手也因为它提醒了学者:想证明一个理论是有多难。我们喜欢假装认为我们的实验证明了真理,事实证明这 不过是我们的一厢情愿。

    真理并不一定会被证明,被证明为真的假设也并不一定是真理。分析实验数据时,我们还是得做出选择:到底该相信什么。