转载：[小红猪]真理在缩水－－现代科学研究方法并不尽善尽美？（上）

摘录文章：来自于科学松鼠会 http://songshuhui.net/archives/56053

作者乔纳莱勒（Jonah lehrer）

——科学界开始重新审视那些曾被广泛证明和接受的科学研究结果。

2007年9月18日，布鲁塞尔。几十位神经科学家，精神病医生以及制药公司执行官在某酒店会议室参加研讨会，这里，与会人员将听到一条让他们不安的资讯。资讯是关于90年代初进入市场的非典型抗精神病药，这些药也被称作第二代精神病类药物。其中，商品名为安律凡／安立复（Abilify），思瑞康（Seroquel）和再普乐（Zyperaxa）的药物曾参与了几个大型精神分裂症临床实验研究，每个都表现不俗：参与临床试验的精神病患者的症状有了戏剧化的改善。因此，第二代抗精神病类药物成为制药公司一个盈利快速增长点。2001年，礼来制药公司（Eli lily）的再普乐（Zyprexa）的收入超过了同门师兄抗忧郁药百忧解（prozac），成为礼来公司最吸金的明星药物。

但是，布鲁塞尔研讨会公布的数据揭示了一个异常现象：药物的疗效在匀速下降。最近的一项研究发现，第二代抗精神病类药物的疗效竟大不如前：与20年前的第一次临床试验相比，某些药物的疗效还不到以前的一半。很多人开始认为，第二代抗精神病药物的表现已经不如那些50年代投入使用的第一代抗精神病药物。伊利诺伊大学芝加哥分校的精神病学教授约翰·戴维斯（John Davis）认为 “事实上，有时候，第二代抗精神病药物的表现甚至更糟糕。“

就药物研发而言，只有反复的研究和测试才能确定某一药物的疗效。研究必须由不同的科学家在不同的实验室分别开展：研究人员不断地重复实验，而后发表研究结果。而且，重复性验证是现代科学研究的基础。它也是科学界自我约束的利器：重复性验证可以减少主观干扰。比如，科学家通常知道自己想要什么样的结果，他们的下意识会多多少少影响实验数据。而重复性验证可以甄别这些主观影响，并促使学术界改正主观因素导致的错误结果。

然而现在，事情有了新的变化。那些经过重复性验证并且发展成熟的假设正逐渐失去可信度，它们正在失去做为“事实”的资格。你想想，那些研究结果，也被多方证明为真了，也写进教科书了，突然间就遇到拦路虎说：你不真。科研人员该多受打击？目前，可信度丧失的现象还没有正式名字，但从心理学到生态学的众多领域都出现过这种现象。在医学领域更为普遍：不仅前文提到抗精神病药物，其他如心脏支架，维生素E和抗忧郁药等医疗方法的研究都遭遇了这个效应。戴维斯教授有一个即将公布的分析研究证明，抗忧郁药物的疗效近几十年间降低了三倍之巨。

对于芸芸科学研究从业者而言，这个现象特别棘手，因为它揭露出了科学研究过程的问题：重复性验证到底靠谱吗？如果重复性验证是区别科学和假科学的试金石，而现在这款试金石出现质量问题，那么，我们应该如何处理通过试金石测试而现在存疑的科研结果？我们应该相信哪一方，继续信任重复性验证还是放弃一切存疑的结果？而且，实验研究是科学界无所不摧的利器：早期现代哲学家佛朗西斯·培根（Francis Bacon）–也是现代科学方法的开拓者，曾宣称实验是科学研究的精华，因为实验允许我们向客观世界提问。但是，现在客观世界开始乱给答案。

1980年代，华盛顿大学的在读研究生菜鸟乔纳森·斯库勒（Jonathan Schooler）发现了语言和大脑记忆的关系中不为人知的另一面。此前，人们普遍认为用语言描述可以强化人的记忆。针对此“迷信”，乔纳森·斯库勒（Jonathan Schooler）创意地设计了一个实验研究，并证明此迷思为伪（译者注1）。他将被试者分为两组：第一组被试观察人脸，然后用语言描述；而第二组被试观察人脸后，不需要语言描述。随后，斯库勒测试了两组被试的人脸记忆情况。他发现第一组记忆效果不如第二组，也就是说用语言描述人脸特征并没有强化记忆脸谱。乔纳森·斯库勒给这个现象起名为 “ verbal overshadowing”，中文对应为语言屏蔽（效应）（译者注2）。（译者：这一效应被认为和目击证人的证词通常不靠谱的现象有关，因为目击证人在向警方描述事件的时候，描述这一需要语言功能的过程影响了目击证人的记忆功能）

乔纳森·斯库勒本人因此成为了一颗学术新星，他的语言屏蔽效应论文于1990年发表后，已经被引用了400多次。不久之后，斯库勒将语言屏蔽效应模型扩展到其他研究项目，比如记忆酒的味道，品定草莓酱，玩益智玩具等等。每一个研究项目都证实，如果被试把脑中所想说出来，他们的测试表现会很差。

但当斯库勒准备将这些新的研究结果投给有声望的学术期刊上时，他却开始有些担心：因为他后来很难重复自己的早期结果。斯库勒本人说：“语言屏蔽效应的重复性实验中的确检测到了语言屏蔽效应，但它的效果却不大，似乎语言屏蔽效应正在丧失作用力”。起初，斯库勒曾认为他在实验方法设计和统计分析法方面犯了错误，但经过排查他又找不到错误。最后他推测认为，可能最早的一批被试自身比较敏感，语言遮蔽效应对他们的影响比较大。（前文提到的精神病学教授约翰·戴维斯（John Davis），推测第二代精神病类药物疗效的下降很可能是出于相似原因：最新的疗效研究中被试的精神疾病症状可能并不严重，而早期临床研究中被试的症状比较严重。即使病人经过治疗后完全康复，新病人症状的改善也不如早期病人多。）“这个解释并不很给力，” 斯库勒说： “我的一位导师曾说过，我真正犯的错误就是试图重复我的实验，他说重复实验只会让我失望。”

后来，斯库勒试图不再纠结这个问题，他的同事也言之凿凿地说，科研中这种低重复性的事儿经常发生。后来的后来，斯库勒事业得意家庭美满，但他还在纠结实验低重复性问题。 1995年，到底意难平的斯库勒首次重复了1990年的语言屏蔽效应研究，他发现，语言屏蔽效应缩水了30％。第二年他再一次重复此研究，发现语言屏蔽效应又缩水了30％。其他实验室重复了斯库勒的实验，也遇到了类似的问题。语言屏蔽效应的影响力明显地衰弱了。斯库勒说：“这让我非常挫败，就好像大自然恩赐我一个非常棒的成果，但现在它反悔了想要收回去。” 私下里，斯库勒把问题归结为是“自然界的习得性麻木”。就好像某一个体逐渐适应了某一个外界刺激之后渐渐对这个刺激麻木无反应了。斯库勒说：“习得性麻木解释了为什么你有时不会注意到熟悉背景中的个别物体。这个变化其实是不可避免的，所以我开始淡定，甚至开玩笑说这其实是大自然开始对我的研究产生了习得性麻木，我想它只是针对我。”

现在斯库勒博士是加州大学圣芭芭拉分校的终身教授，他有着黑色卷发和淡绿色眼睛，还有那种轻松的神态，就好像他住在自己最喜欢的海滩附近似的。接受采访时，他会越说越走题：他可能以记忆话题开场，可突然又跳到了威廉姆·詹姆斯的名言，而这个名言又引发了他大谈特谈内省的重要性。此后不久，我们又开始看他苹果手机里火人节的照片，这张照片才将我们的话题引回到了记忆的脆弱本质。

现在语言屏蔽效应理论已经被广泛接受：比如它经常用于目击证人作证等场合中。斯库勒博士还是对自己的遭遇有一些不平，“我知道我早该向前看，”他说，“我真的应该停止纠结了，但我就是控制不住自己。” 那是因为他深信他自己已经被一个严重的问题绊住了，而且这个问题也影响着心理学发展。

早在19世纪30年代，这种奇妙的现象就开始“戏弄”科研人员了。比如，杜克大学的心理学家约瑟夫班克斯莱茵（Joseph Banks Rhine）曾研究超感知觉（extrasensory perception／ESP）存在的可能性。莱茵设计了自己的研究工具齐纳牌—一套齐纳牌共有25张，五张一组，一共五组，五组分别印有五种不同的符号。实验过程是：研究人员从牌堆里抽出一张，要求被试猜测抽出的牌印的符号是什么。大多数被试都能如预期地保证20％的正确率（通俗的说，就是五猜一，随便乱猜就能保证1/5也就是20％的正确率）。但在首批实验中，一名叫亚当林茨迈耶（ Adam Linzmayer）的本科生竟然达到了50%的正确率。更不可思议的是：林同学曾连续猜对９次，而这事的概率理论上是二百万分之一。但林同学就这么小概率了三次（此时的林茨迈耶同学比章鱼保罗还神，因为保罗不过是每次二猜一。）。

莱茵记录了林同学的奇异表现并且准备就此发表几篇论文。但是，当莱茵开始认可超感知觉存在可能性的时候，超级英雄林同学却突然丧失了他的赌神天赋。 1931和1933年间，林茨迈耶同学又猜了几千次牌，但他的正确率已经降到与常人无异。项目主持人莱茵不得不承认：林茨迈耶同学的超感知能力的确急剧下降。当然，林同学的故事并不是个案，莱茵和其他研究超感知觉的学者都记录到了相似的案例。莱茵将这种现象—效应量随时间流逝而戏剧般下降—命名为递减效应（Decline effect）。

斯库勒教授对莱茵的研究困境很着迷，因为他找到了一个同伴：另一个遭遇递减效应的悲催学者；而且莱茵的研究也经常悲剧。2004年，斯库勒教授开始模仿莱茵的研究，讽刺的是，他试图重复实验的不可重复性，也就是说，斯库勒的目的就是实验重复不出来。同时，为了表达对莱茵研究兴趣的尊敬，斯库勒教授决定研究另一种心理玄学现象－－预知能力（precognition）。他的实验设计是：被试们首先看到一组图片在眼前快闪，随后他们会被要求指认出来图片。当然，大多数被试并没有记住图片，因为图片闪现的时间太短，来不及在大脑中留下印象。随后，斯库勒随机选择图片中的一半播放给被试，并测试被试指认图片的结果。他想知道：那些被播放两次的图片，在第一次播放的时候，被指认出来的概率会不会更大。也就是说，被试会不会“提前感知了”第二次看到的图片，而在第一次看图片的时候就指认出来。第二次观看图片会不会逆时间流回去影响第一次指认图片结果？

这个假设的疯狂之处在于，斯库勒知道预知力没有任何科学依据。可这次他并不是要验证超感知觉能力，而是要测试递减效应。斯库勒说： “刚开始时，如我们预期的，数据看起来很喜人，但我不能相信我们发现了那么多预知力显灵的例子，但随着实验的进行，递减效应开始显灵了：效应量开始下降。（效应量是统计学中用于衡量处理效应大小的指标。）课题组招募到两千多名本科生参与实验。斯库勒说，“实验进行到最后，我们的结果看起来与莱茵的结果无异，像莱茵一样，我们 “发现”了预知力存在的“证据”，这个发现昙花一现后又主动抛弃了我们。”

递减效应最可能的解释是：均值回归：既，早期实验中“侥幸”获得的阳性数据开始与后期得到的“阴性”数据正负抵消。斯库勒预知力研究中的被试者并没有“丧失预知力”，他们不过是被更多“无预知力”的数据遮盖了。同时，斯库勒还注意到遭遇递减效应的数据组是通过统计学检验的。也就是说，数据量是足够大的，所以均值回归的影响不应该这么强烈。斯库勒说：“数据通过了所有的（统计学）测试，理论上说，它们是无意义的随机数据的概率只有百万分之一。所以，递减效应是不太可能出现的。实际上，它却经常显灵。而且我人品不好赶上了好多次。” 斯库勒博士认为递减效应该得到更多的关注，因为四处招摇的递减效应正在挑战统计学。斯库勒说“每当我讨论递减效应时，学者们总是觉得不安。我还是想弄明白我的数据到底怎么了。和大多数学者一样，我认为随着个人成长，我的研究工作会越来越轻松，因为我的实验技巧越来越好，研究语言屏蔽效应的实验设计也会越来越好。但为什么总是事与愿违呢？我相信我们可以用科学的研究方法解开这个谜题，但在此之前，我们必须承认，我们面临的是一个真正的困境。”

1991年，丹麦动物学家安德斯默勒（ Anders Møller）在瑞典乌普萨拉大学做研究时，做出了一个不错的发现。这个成果的关键词是，家燕，交配和身体对称。传统上认为，生物个体的身体对称性与其基因组突变量是直接相关的。越多的基因突变意味着更多的“波动性不对称”。（测量人类波动性不对称的一个简单方法就是对比双手的手指长度）。安德斯默勒的发现是，雌性家燕非常愿意与羽毛又长又对称的雄家燕交配。这意味着，挑剔的雌性家燕用雄性家燕羽毛的对称性做参考，来衡量雄性基因的好坏。默勒的这篇研究论文发表在引无数大牛尽折腰的《自然》科学杂志上，引发了相关领域中一场狂热的研究竞赛。因为学者发现可以用一个简单且适用性广泛的参数来衡量基因质量，而且雌性/女性也会被这些参数的特征吸引。某种程度上说，审美是由基因推动的。

随后的三年，交配选择中波动性不对称领域兴起了十个独立的研究项目，其中九个发现了雄性的身体对称性和求偶成功率之间有联系。这九个研究中，从果蝇体毛研究到家燕身体对称性的重复性研究，科研人员发现，雌性动物总是倾向于与身体左右对称的雄性交配。不久之后，这个理论被用来研究人类的婚配选择。学者发现，女性更喜欢那些身体对称的男性的气味，有意思的是，人类女性的只在排卵期表现出这种倾向。还有，男性的身体对称，他的女性伴侣性高潮的次数更多。罗格斯大学的一个人类学家公布：他研究了40个牙买加舞动作，发现身体对称男性舞者往往被评为好舞者。

但是，好景不长，这个理论也遭遇了危机。1994年，这个领域有14篇论文发表，其中8篇文章证实了身体对称和交配选择有关联。1995年，８篇发表的论文，只有4篇有了阳性结果。1998年，12篇波动性不对称的文章中，只有三分之一声称佐证了波动不对称理论。更糟的是，阳性结果研究的效应量也在下降：1992到1997年，波动性不对称课题研究中的平均效应量下降了80％。

波动性不对称理论的遭遇只是个开始。2001年，澳大利亚国立大学的生物学家迈克尔詹尼恩斯，分析了生态学和演化生物学研究结果随时间变化的趋势。詹先生收集并研究了上百篇论文和44篇统合分析论文（译者：统合分析（meta-analysis）是对相似/相同课题的研究结果以统计学的方法进行总结分析）。总结分析后，詹先生发现了递减效应的身影：很多理论被时间洗去了存在价值。而且，詹尼恩斯设法排除许多变量的干扰。（比如，同一作者发表的几篇相似文章如果都计入统合分析，数据的重复使用会干扰分析结果。）即使如此，詹尼恩斯还是发现：科学假设的有效性通常在一年内显著下降。詹先生承认他的发现很棘手，但他却不愿意公开讨论这些。

詹先生认为：“对于科学家来说，这个话题很敏感，因为科学家的责任就是解决那些长期困扰人类的谜题，并创立永恒理论，但是当你看到这些递减效应的影响时，你突然间开始对这一切产生了怀疑。”

一	二	三	四	五	六	日
« 6月
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Data Is Art

Tableau，Alteryx，Knime，R，D3，Data Mining，Network，GeoSpatial，Visualization

转载：[小红猪]真理在缩水－－现代科学研究方法并不尽善尽美？（上）