搞科研的人,都爱骗自己

北京中医医院痤疮 http://m.39.net/pf/a_9125684.html

未经许可请勿转载谢谢。

人类非常善于自我欺骗。由于越来越多不可重复的科研结果被曝光,一些研究者开始思考对抗这种人类天性的方法。

撰文ReginaNuzzo

编译徐寒易

?

年,在安德鲁?盖尔曼(AndrewGelman)发表了那篇声称“美国民主党候选人如果能在经济政策上适当右倾的话,他们的得票率就会上升”的文章5年后(1),这位哥伦比亚大学的统计学家悲伤地发现他的统计分析出了纰漏。实际上,该校的一名叫做YangYangHu的本科生在尝试重复这篇研究的过程中发现,盖尔曼把某个变量的符号标错了。

盖尔曼立刻发表了一篇只有三句话的勘误,宣布这篇论文核心部分的所有内容都是错的——除非有新的研究证明它们是对的。

事后回想,盖尔曼把他的错误归因于人类大脑的天生弱点。“最初的结论看上去完美无缺,”他解释道,“因为许多时候,这类编码错误会让研究结果变得荒谬可笑。只有在你发现结论不对劲的情况下,你才会回头去找出错的地方。如果结论看上去没什么问题,这类错误就很容易被忽视。”

这就是科学界鲜有人提及的大问题——即使是很诚实的人也是自我欺骗大师。我们的大脑是很久以前在非洲稀树大草原上进化出来的,那时候,快速判断一个地方到底藏着熟果子还是掠食者是事关生死的技能。但是这种用来躲避狮子的聪明技俩并不一定适应现代科学。就目前的科学界而言,一个人到底能不能拿到终身教职可能取决于她/他对一批包含兆兆字节的多维度数据的分析。轻率下结论的“本事”很容易让我们从随机的数据中挖掘出错误的模式,忽略掉对于结果的其他可能解释,或者轻易接受看起来很合理的结论。我们非常容易误入歧途而不自知。

斯坦佛大学统计学家约翰?伊俄安尼德斯(JohnIoannidis)认为,无法意识到自己偏向性的后果之一就是,过分信任已发表的论文的可重复性。实际上,学术造假只是这个问题的一小部分。今年年初,一个试图重复个心理学研究的大项目只成功复制了其中的三分之一的研究结果(2)。年,安进生物科技公司(Amgen)的科学家报告称,他们只能复制53项里程碑式的癌症和血液病学研究中的6项(3)。年,伊俄安尼德斯和同事称,他们只能完全复制18项基于微阵列技术的基因表达研究中的2项(4)。

伊俄安尼德斯说道,虽然无法查证到底有多少科学家在数据分析时“忽悠”了自己,但是如何解释科研的不可重复性却是当务之急。那项试图重复篇心理学论文的项目说道了点子上:如果我们假设大多数科学家都是诚实且勤劳的话,那么不可重复性的问题就可以归结于无意识的偏向性。“现在是对研究进行研究的好时机,”他说,“科研的大量增长为对错误和偏向性的研究提供了大量的素材。我们有理由相信我们能够解决不可重复性的问题。”

斯坦佛大学的社会科学家罗伯特?麦昆认为,“不可重复性的危机来临的时候就是改良研究工具的好时机。”以前也发生过类似的事——20世纪中期的时候,科学家意识到实验人员和受试者总是下意识地让行为符合研究预期。双盲实验就是那时诞生的。

“人们忘了,当我们谈论科学方法的时候,并不意味着它们是完备的。”加利福尼亚大学伯克利分校的天体物理学家萨尔?帕尔马特(SaulPerlmutter)表达了自己的观点,“科学是一场人类用自创的工具实行自我欺骗和反欺骗的持久赛。”因此,科学家正在尝试许多新方法来纠正数据分析中的偏向性,包括与竞争对手合作、在实验开始前确定接收论文的杂志、研究出于策略性目刻意虚构的数据等。

为什么不可重复?

虽然自科学诞生之日起,人类大脑的认知偏向性就一直存在,但是有些关键的因素已经发生了变化。提出这一观点的心理学家布莱恩?诺赛克(BrianNosek)是公开科学中心(CenterforOpenScience)的执行总监,这个中心的目标是改善科研的透明度和可重复性。如今的学术环境的竞争比以往任何时候都更加激烈,发表具有统计显著性的研究成为了一件非常重要的事。具有统计显著性是指,数据的一个叫做p值的统计检验值小于或等于0.05。“作为科学家,我会小心不要得出误导人的结论。”诺赛克说,“但是研究结论于我是有利害关系的。”正是这种利害关系给了大脑动机,让它去找到它想找到的东西。

认知偏向性引人担忧的另一个的原因,是包含大量变量的数据组的出现。真实的信号在一片随机噪音中显得十分微弱。现有的统计方法几乎不能处理这样的数据组,更别提我们的大脑了——得克萨斯大学M·D·安德森癌症中心的统计学家吉斯?巴格利(KeithBaggerly)评论道。他在年9月的一个关于生物信息学的挑战的会议上谈道,“当需要处理50个甚至上百个变量的时候,我们的直觉简直糟透了。”

达特茅斯学院的管理学专家安德鲁?金(AndrewKing)认为,方便操作的统计软件的流行让筛选合意的数据变得易如反掌。很多人对背后的统计原理似懂非懂,他们找到的“具有显著性”的p值可能没有任何意义。“我相信,社会科学所处的阶段类似于奥运会的类固醇泛滥时期。”他说,“我也曾犯下了用统计软件来‘增强比赛表现’的错。我猜测许多科学家都至少犯过一次这样的错误。”

加利福尼亚大学圣地亚哥分校的心理学家哈尔?巴什勒认为,正如竞技体育一样,追求漂亮的结果会让科研陷入恶性循环。当一些行为神经科学的研究开始报道不大现实的高相关系数(如0.85)时,那些只得到了中等程度相关系数的科学家就开始急躁了:“天哪,我的相关系数只有0.4,可能我做得不够好。”

一叶障目不见泰山

下面要说一个新手科学家常常遇到的陷阱,这个问题也可被称作“实验假设的短视性”:研究者常常盯住自己做的那个假设不放,费劲脑汁想要找到支持这个假设的证据;忽视不利这个假设的证据;不考虑其他可能的解释。“人们总是爱提那种得到的答案可以支持他们的假设的问题。”宾夕法尼亚大学的心理学家乔纳森?巴隆(JonathanBaron)谈道。

他举了一个例子。科学家曾经试图证明恶心感会加重道德谴责。“他们让受试者呆在一个乱糟糟的,或者被喷了‘屁’味喷雾的房间,”接着受试者评判一些道德失范行为。这些科学家认为,只要任一房间里的受试者对这些行为给出更严厉的惩罚,那么他们的研究假设就得到了证明(5)。但是他们并没有考虑其他解释,比如受试者可能因为对这种实验设置感到愤怒而进行发泄,所以恶心感并不是唯一的解释。如果科学家只



转载请注明地址:http://www.yanchuenran.com/dxdm/13099.html
  • 上一篇文章:
  • 下一篇文章: 没有了