《对“伪心理学”说不》书摘


对“伪心理学”说不:第8版/(加)斯坦诺维奇(Stanovich, K.E.)著;窦东徽,刘肖岑译. -北京:人民邮电出版社,2012.1(2012.1重印)
ISBN 978-7-115-26325-4

下载 对伪心理学说不.mobi (访问密码:320860)


第 1 章 心理学充满生机(在科学阵营里左右逢源)

  心理学的批判性思维习惯:心理学不相信个人的智慧,更相信科学的方法,而科学方法的本质是证伪,即对我们的经验、常识和直觉,产生怀疑、挑战和批评。从原则上而言,心理学家不怕犯错误,但害怕以假乱真。心理学家也不相信那些能回答所有问题的绝对真理,但相信对所有问题应该有一个相对正确的答案。心理学家从不相信个案和例子,因为其随机性和主观性太过明显,但我们愿意相信大样本基础上的科学研究发现。我们希望听到动听的心理故事,但更愿意看到众多心理学观察的数据和总结。

  心理学的概率性思维习惯:我们和很多自然科学家思考方式不同之处就在于我们更容易相信,任何人类的行为都是概率性的表现,也就是说,它有一定的不确定性,会受到其他随机事件的影响。其实人类很多学科都是建立在概率基础之上的,比如说核物理、天体物理、生物进化、病理学、所有的社会科学(经济学、社会学、政治学等)等等,它们都不可能准确预测每一个研究对象的具体活动,但都对整体的事物活动规律有很好的描述和预测。只不过我们心理学家更愿意承认而且强调我们学科的不确定性而已。

  当我们觉得需要对行为作出解释时,往往搬出一箩筐关于人类行为的普遍真理、说教及谚语。这些关于行为的常识存在一个问题,它们之中有不少是自相矛盾的,因此也是不可证伪的。
  我劝许多学生“今日事今日毕”,但我希望没跟我刚刚指导过的那个学生说过这番话,因为我刚还跟他说“要顺其自然”。
  这类谤语和俗话构成了对行为的固有“解释”,人们爱用它们,就是因为它们难以驳倒。不管发生什么事,都可以拿一条出来解释一番。难怪我们都认为自己是判断他人行为和人格的高手。天底下发生的事我们都能解释。

  心理学研究表明,在接受实证检验后,许多关于行为的普遍文化信念都被证明是错误的。举个例子,“工作经验对于高中生是有价值的”是一个普遍信念。大多数美国成年人认为,青少年边打工边上学是一件好事,因为:(1)他们能赚钱,支付自己未来的学费及家庭开销;(2)他们能建立“职业道德”,使得他们在将来能够成为更具责任感的员工;(3)他们会对我们的经济体系产生更大的尊重;(4)由于已经融人了经济体系,他们会成为更有动力的学生。
  发展心理学家们就打工对中学生行为、态度及学业成绩的影响进行了广泛研究(Sternberg,Brown, & Dornbusch, 1996)。他们发现,基本上我们所有关于青少年打工的文化信念都是错误的。一个十几岁的孩子打工所赚的钱中,只有极少量用于帮助家庭开支或继续学习。绝大多数收入花在了炫富或满足电视广告制造出的“需求”上。上学打工会对学生的教育及教育体验造成损害。最有趣的是,工作经验使青少年更加玩世不恭,不尊重工作及其在经济体系中的价值。在一项研究中,打工的青少年比不打工的青少年更可能赞同“疯子才会玩命工作”和“天下没有哪家公司会关心员工”等目论(Greenberg & Sternberg, 1986)。最后,在回顾了这方面的研究之后,研究者得出结论:“打工似乎有可能引发而不是阻止了某些形式的不正当行为”(p.6)。看来,我们炮制了大量有关青少年打工价值的文化神话。“塑造品格”、“培养金钱观念”这类说辞都是虚假的。这类陈词滥调其实属于民间传说,是人类学家在欠发达国家从事研究时所感兴趣的——这些传说使我们感觉良好,也使当前文化习俗变得合理,但没有任何事实依据。

  性俗观念(或称“常识”)出现谬误的例子俯拾皆是。比如说,有一种说法是,学习好或读书多的孩子都不擅长交际和体育。这个观点虽然错得离谱,但在当今社会上极为流行。有大量证据表明,与“常识”世俗观念相反,爱读书的人和追求学术成就者与不读书者相比,有着更强健的体魄,而且更常参与社交活动(Gage & Berliner, 1984, pp.18-19; Zill & Winglee, 1990)。再比如,学习成绩好的儿童比学习成绩差的更容易被同伴接纳。读书多的人比不读书者更愿意运动、慢跑、露营、远足、维修汽车等。

  注意今日的“常识”,因为不难看出,昨日的常识往往变成今天的谬论。毕竟,常识就是“尽人皆知的知识”,对吧?对。那么,妇女不能投票,对吧?非裔美国人不应该接受教育,对吧?残障人士不该在社会里出现而应当被送到收容所去,对吧?事实上,150 年前,这些观念都是尽人皆知的常识。当然,我们现在视这些过去的常识为谬论,都是些以完全未经证实的假设为基础的信念。但是,从这些例子中,我们可以看到心理学在常识面前扮演的关键角色。常识总是基于一些假设,而心理学对这些假设的经验基础进行检验。正如我们之前看到的许多例子,有时候假设得不到实证支持。这样的例子还有很多,通过它们,我们可以看到,心理学扮演着一种世俗智慧检验者的角色,常常难免和诸多根深蒂固的文化信念发生冲突。心理学往往是“传递坏消息的信使”,宣告原本为人们所接受的世俗观念再无立足之地。这就不难理解,为什么许多人不仅无视这些消息,还想消灭这些信使。

  某学校的董事会给予家长两种选择,一种是让他们的孩子在 K-2 不同年龄混合班学习,另一种是在按年龄分的常规班中学习。教师提出对这两种方法进行研究的建议,但此建议被校董事会否决,因为他们觉得,如果一旦研究发现某种方法更有效,家长会迫使他们完全改用那种类型的教学。就像莱文和奥唐奈(2000)说的那样,“学校董事会压根儿不想知道!”(p.66)。因此,我们应当意识到,心理学研究往往受到诋毁,不是因为人们认为它不好,而是因为他们希望避免研究结果可能给他们带来的影响。

  科学方法是指一些非常普遍的原则。最重要的三点是:(1)科学采用系统的实证主义的研究方法;(2)它以可公开验证的知识为研究对象;(3)它研究实证可解的问题,并产生可检验的理论(下一章的主要内容)。构成系统实证主义基础的结构化及可控制的观察是本书随后几个章节的主题。科学通过同行评审等程序和重复验证等机制来保证知识的公共

第 2 章 可证伪性——如何捕捉头脑中的小精灵

  有人这么总结拉什的态度:“一方面坚信自己的理论是正确的,另一方面又缺乏有效的方法对治疗效果进行系统研究,因此他将每个好转的病例都归为治疗方法的功效,而将每个死亡的病例都归为病情的严重性”(Eisenberg,1977,p.1106)。换句话说,如果病人情况好转,就被作为放血疗法有效的证据;如果病人死掉了,就被拉什解释为病人已经病入膏肓,无药可救。
  本杰明·拉什在评估其疗法的效果时跌入了一个致命的陷阱。他的评价方法根本就不可能让人得出其治疗方法无效的结论。如果说,病人的恢复是对他治疗方法有效性的肯定(对其医疗理论的肯定),那只有当病人的死亡是对其治疗方法的否定时才算公平。但事实上,他却把这种否定合理化了。拉什解释证据的方式,违反了科学理论建构和检验应遵循的最重要原则之一:他令自己的理论不能被证伪。
  科学理论的表述应该遵循这样的原则——从中得出的预测有可能被表明是错误的。因此,对某理论的新证据进行评价,必须使新的数据具有证伪该理论的可能性。这项原则通常被称为“可证伪性标准”。

  我们必须澄清一个关于理论的常见误解。这个误解体现为我们常说的一句话:“哦,这只不过是一种理论。”这句话代表了外行人使用“理论”这个词时通常所指的意思:一项未经证实的假设,一个纯粹的猜想或直觉。这意味着一个理论与其他理论并无优劣之分。“理论”这个词在科学上绝对不是这么用的。当科学家说到“理论”的时候,他们指的不是未经验证的猜想。
  科学上的理论是一组具有内在联系的概念,它们能对一组数据做出解释,并对未来实验的结果做出预测。假设是从理论中产生的具体预测(理论则更加普遍和全面)。目前可行的理论是那些产生了一些假设,并且其中许多已经得到了验证的理论。因此这种理论的理论结构与大量的实证观察相一致。然而,当观察数据开始与理论中提出的假说相矛盾的时候,科学家们会尝试构建一个能为数据提供更好解释的新理论(或者,在更通常的情况下,只是修正已有的理论)。因此,目前在科学范畴内所讨论的,都是在一定程度上已经被证实了的、所做出的预测并没有与现有的数据相矛盾的理论。它们并非纯粹的猜想和直觉。
  外行人和科学家们使用“理论”这个词时的这种差异,经常会被一狴试图将神创论纳入公立学校教育的虔诚的正统基督教徒所利用(Forrest & Gross, 2004; Scott, 2005; Talbot, 2005)。他们的论点通常是“进化论毕竟只是理论”。这种观点试图借用外行人对“理论”术语的用法,蓄意将理论歪曲为“只是一个猜想”。然而,通过自然选择的进化理论不是外行人所理解的“理论”(相反,在外行人的理解中,它应被称之为“事实”,见 Randall, 2005),而是一个科学意义上的理论,是由一系列庞大而多样的数据支持的结论(Maynard Smith, 1998; Ridley, 1996, 1999; Scott, 2005)。它并不等同于其他任何猜想,不是一个纯粹的猜测。相反,它与从属于其他学科的知识紧密相联,这些学科包括地质学、物理学、化学以及生物学的各个分支。

  弗洛伊德的理论使用一个复杂的概念结构,在事后解释人类行为,但并不做事前的预测。它可以解释一切,但是波普尔认为,也正是这个属性使得它在科学上无用。它不做具体的预测。精神分析理论的拥护者花费大量的时间和精力试图用他们的理论解释人类所有已知的活动——从个人的怪癖行为到广泛的社会现象,但他们在使这个理论成功地成为事后解释的丰厚资源时,也剥夺了其所有的科学实用性。如今,弗洛伊德的精神分析理论在激发文学想象方面比在当代心理学中扮演着更重要的角色

  以抽动性稷语症为例。这是一种以身体抽搐和痉挛为特征的紊乱,并伴有言语症状,如嘟囔、吠叫、模仿言语(无意识地重复他人的话)和秽语(强迫性重复淫秽词语)。抽动性秽语症是一种器质性的中枢神经系统紊乱,并已经成功地被药物治疗所攻克(Bower, 1990, 1996a)。纵观历史,抽动性秽语症患者一直遭受着迫害,早期被宗教统治者视为妖魔,近代又被认为是鬼怪附体,要被强制驱魔(Hines, 2003)。更重要的是,在 1921 至 1955 年之间,对这种病的解释及疗法一直被精神分析学派的概念体系所把持,这在很大程度上阻碍了人们对此病成因及治疗的理解(见 Kushner, 1999)。有关这种病症的不可证伪的精神分析解释层出不穷。这些似是而非的解释所造就的概念泥潭蒙蔽了这一病症的实质,也阻碍了对其进一步的科学探究。例如,有一位作者曾经这样写道:
  (抽动性秽语症是)精神分析导致脑部疾病研究发生倒退的典型例子。勒·图雷特(La Tourette)将疾病归因于大脑的退行性变化过程。而在本世纪最初的几十年,由于弗洛伊德理论的盛行,对这种病的关注偏离了大脑……这一倒退的结果使病人往往被转到精神科医生(通常是精神分析学派的医生)而非神经科医生那里,因此没有接受生理检查和研究(Thomton, 1986, p.210)。
  夏皮罗等人(Shaphroeta L, 1978)提到,一位精神分析师认为,他的病人“不愿意放弃抽动,因为这成了她性快感的源泉和潜意识性欲的表达”。另一位精神分析师则认为,抽搐“等同于手淫……与生殖器快感相联系的力比多转移到了身体的其他部位”。第三位认为抽搐是一种“肛门施虐的迁移症状”。第四位认为,抽动性秽语症的患者具有“强迫型人格以及自恋倾向”,病人的抽动“代表了一种情感症状,对想表达情感的压抑性防御”。夏皮罗等人(1978)对这类理论现状的总结,很好地说明了忽视可证伪性标准的有害影响。

  这些(不可证伪的)理论拥有巨大的心理吸引力,其秘密在于它们能够解释一切事情。预先知道无论什么事情发生,你都能理解它,不仅给你智力上的掌控感,而且,更重要的是,让你拥有应对这个世界所需的安全感”(Magee, 1985, p.43)。但是,这种安全感的获得并不是科学的目标,因为对这种安全感的追求是以知识发展的停滞为代价的。科学是一套不断挑战原有信念的机制,在这种机制里,原有信念以一种能够被证伪的方式接受实证检验。这一特点往往使科学(尤其是心理学)与所谓的世俗智慧或者常识直接发生冲突(正如我们在第 1 章中所讨论的)。

  心理学并不追求那类事后能解释一切,但事先无法做出任何预测的理论,不追求这种解释系统所带来的安逸感。它不接受那些被设计得永不可变、并代代相传的世俗智慧体系。

  当我们的信仰与观察到的事实相冲突时,我们最好是调整信仰而不是否认事实和坚持错误的想法,这样我们将会少遇到一些个人和社会问题。
  每个人在训练自己的推理能力时都要学会这一点,当他回顾过去时会说“这个问题我当时没想明白”。生活中的人们也需要这种能力,即脸不红心不跳地说:“我当时搞错了。”而科学能让认错每时每刻都发生。你注意到某些东西与你已经思考了很久的事情相冲突或不一致,它会触动你改变想法。这与人们没完没了地去寻找一些合理说法来为自己先前的错误辩解的做法完全不同。
  当你与某人激烈地争论的时候——也许就是当你给出一个有力的反击来捍卫你的观点的时候——有多少次你会突然意识到你搞错了某个关键事实或论据?这时你会怎么做?你会收回前面的话并向别人承认错误,同时承认别人的解释现在看起来比你的更合理吗?或许不会。如果你和我们中的大多数人一样,那么你一定会“没完没了地寻找一些合理说法来为自己先前的错误辩解”。你试图在拒不承认失败的情况下使自己从争论中全身而退。你最不可能做的就是承认自己错了。这样的话,你和争论对手都会更加疑惑:到底哪一种信念更接近真理?如果争论不能成为公共性的(如在科学中那样),如果正确和错误的信念以同样激烈的方式争辩,如果争论的结果不能得到正确的反馈(如本例),那就没有更可靠的机制使信念与现实相吻合了。这就是为什么那么多私人和公开的对话令人困惑,为什么相比所谓的常识或世俗智慧,心理科学在解释人类行为的原因方面更加可靠。

  心理学界许多最具声望的科学家都遵循米德瓦的建议。在一篇报道实验心理学家罗伯特·克诺德(Robert Crowder)职业生涯的文章中,引述了他的一位同事马扎林·巴纳吉(Mahzarin Banaji)的话:“他是我认识的最不维护自己理论的科学家。如果你发现一种方法证明他的理论有漏洞,或者他的实验发现有局限性或有缺陷,他会非常高兴,并和你一起计划如何推翻该理论”。
  但是,要让科学发挥作用,并不需要每位从事科学工作的科学家都具备证伪的态度。雅各布布·布罗诺夫斯基(Jacob Bronowski, 1973, 1977)在他的许多文章中指出,科学那种揭示世界真知的独特力量,并不产生于科学家们独特的德行(即他们是完全客观的、他们在解释研究结果时从来不带偏见等)。实际上,这种力量的产生是因为会犯错的科学家们身处一个证实与平衡的程序中。在这个程序中,总会有其他科学家提出批评并发现他们同行的错误。哲学家丹尼尔·丹尼特(Daniel Dannett, 2002)提出过相同的论点:不是每位科学家都必须表现出罗伯特·克诺德的客观性。正如布罗诺夫斯基和丹尼特所强调的那样,科学家和其他任何人一样容易犯错,但认识到他们及其所属团体的犯错根源之后,他们设计出精巧的系统来约束自己,努力防止自身弱点和偏见影响自己的研究结果(p.42)。心理学家雷·尼克尔森(Ray Nickerson, 1998)以一种更为幽默的说法道出相同的观点:科学家们的虚荣心实际上在科学进程中起着作用,“科学家对自己的想法抱有的批判性态度并没有在很大程度上导致科学的成功……更真实的情况是,每个科学家都积极地想要证明某些科学家所持有的观点是错误的”(p.32)。这些作者认为,科学知识的力量并不是来自于科学家的德行,而是源于他们不断交叉检验彼此的知识和结论的这一社会过程。

  某些类别的想法不值钱。生物学家和科学作家史蒂芬·古尔德(Stephen J.Gould, 1987)对此有所阐述:
  15 年的月刊专栏写作生涯,让我收到各个科学领域非专业读者的海量来信……我发现一个常见的、同时是压倒性的错误观点。人们会告诉我他们提出了一项革命性的理论,它会拓展科学的边界。这些理论通常以单倍行距打印在几张纸上,内容通常是对最深层的终极问题的猜测——什么是生命的本质?宇宙的起源?时间的起点?但是,这些想法不值钱。任何智力正常的人都能在早饭前想出几个这样的念头。科学家们自己也很容易就能想出来。但我们不这样做(或者说,我们只让它们留在自己脑子里),因为我们不能找到方法来验证它们,以决定它们的对错。一个既不能被证实也不能被证伪的可爱想法,对科学来说又有什么用呢?
  古尔德对最后一个问题的回答是:“没有用。”古尔德这里所说的廉价想法正是我们早先在对卡尔·波普尔观点的讨论中提到的那些:包罗万象、复杂、“模糊”、能够用来解释一切的宏大理论——这种理论的建构更多是为了提供情感支持,因为它们没打算被改变或抛弃。古尔德告诉我们,这种理论对于科学目标是无用的,无论它们多么有抚慰功能。科学是创造性的过程,但是这种创造性需要让概念结构符合实验数据。这并不容易做到。那些如实解释真实世界的想法一点儿也不廉价。也许这就是为什么好的科学理论很难提出、而不可证伪的伪科学信仰体系泛滥的原因,因为后者容易建构得多。

  虽然科学上的知识是暂时性的,由理论得出的假设可能是错误的,但这并不是说所有的一切都要被拿来检验一番。科学中有很多理论已经被确认过无数次,它们被称为“公理”,因为它们几乎不可能被未来的实验推翻。我们不大可能在某一天发现,血液不是循环的,或者地球并没有在环日轨道上。这些众所周知的事实并不是我们一直在讨论的假说。它们也不是科学家们的兴趣关注点,因为它们已经是确定无疑的。科学家只对已有知识范围之外的问题感兴趣:它们并不是确定无疑的。
  科学实践的这一面——科学家侧重于已知事实的前沿,而忽视那些已经被充分证实的问题(所谓的公理)。

第 3 章 操作主义和本质主义——“但是,博士,这到底是什么意思?”

  事实上,科学家并不企图获得本质主义者所追求的那类知识。从这一意义上讲,对于本章一开始提出的问题的正确回答是:科学家不知道地心引力是什么。科学并不试图回答关于宇宙的“终极”问题,彼得·米德瓦(Peter Medawar, 1984)曾写道:
  (确实存在)那些科学不能回答并且在科学发展的可预见的范围之内也不可能得到答案的问题。比如那些孩子们会提出的问题——“终极问题”……我能想到的这样的问题有:世界是如何开始的?我们来到这世间是为了什么?生活的意义是什么?(p.66) (然而,)即使科学不能回答终极问题,但也不意味着必须接受其他的答案;也不能理所当然地认为,既然这类终极问题能被提出,就一定能够被回答。就我们目前的理解力而言,这类问题是无从回答的。(p.60)

  科学家之所以质疑那些自称为终极问题给出绝对答案的人、理论或者观念体系,一个原因就是科学家认为终极问题是无法回答的。科学家并不会宣称他们可以提供完美的知识;科学的独特优势并不在于它是一个不会犯错的过程,而在于它提供了一种消除错误的方式,它能不断消除我们认识中的错误。再者说,自称完美或绝对知识的主张及做法,却往往会阻碍人们的探索。自由而开放地探索知识是科学活动的一个先决条件。科学家们总是在怀疑那些号称已经找到问题最终答案的言论。

  本质主义者的态度通常有一种表现:在探求知识之前,过于关注术语或概念的定义。“但是我们必须首先界定我们的术语”是本质主义者常用的一个口号。“某理论性概念的真正含义是什么?”这种理念似乎意味着,当一个词被当做理论中的概念使用之前,我们必须对这个词的使用所涉及的所有潜在语言问题有一个全面而且清晰的理解。事实上,这正好与科学家的工作方式相反。在对物理世界开展研究之前,物理学家不会花费气力讨论如何使用“能量”一词,或者当我们讨论物质的基本组成时,“粒子”一词是否真正表达了我们要表达的本质含义。
  在科学领域里,确定某概念的意义,是在与该术语有关的现象得到一定程度的研究之后,而非研究之前。一个精确的概念性术语来自科学过程中固有的那种数据和理论间的相互作用,而不是关于语言用法的辩论。本质主义者让我们陷入无休止的文字争论,而许多科学家坚信这样的文字游戏使我们脱离了事物的实质。例如,对于“生命一词的真正含义是什么”这个问题,两个生物学家的回答是“没有什么真正的含义,它只是足够好地满足我们生物学家工作需要的一种用法,并不是争论或辩驳的主题”(Medawar & Medawar, 1983, pp.66-67)。总之,科学家的目的是解释现象,而非对措词进行分析。在所有的科学学科里,进步的关键在于放弃本质主义,接受操作主义。这正是本章中我们探讨的主题。没有别的学科比心理学更能说明这个问题了。

  “操作主义”只是这样一种思想:科学理论里的概念必须立足于可观测事件,或与可观测事件相关联,而这些可观测事件是可以被测量的。将概念与可观测事件相联系的是概念的操作性定义,这使概念公开化了。操作性定义使得概念从个人化的感觉和直觉中分离出来,并且允许任何实施可测量操作的人对概念进行检验。
  例如,把“饥饿”这个概念定义为“我胃里不好受的感觉”,并不是一个操作性定义,因为它与个人对于“不好受的感觉”的体验相联系,因此不能被其他观察者知悉。相反,涉及一些可测量的食物剥夺时间或者像血糖水平这样的生理指标的定义才是操作性的,因为它包含了任何人都可以实施的可观测的测量。同样,心理学家不同意将“焦虑”定义为“我不时会感到的不舒服和紧张”,而是必须用像问卷和生理指标测量这样的操作来定义概念。上述那个定义是个人对身体状况的解释,他人无法复制;而后者则是把概念放在公共科学领域进行解释。

  操作性定义促使我们认真地、经验性地思考我们如何定义一个概念,所谓经验性,是指要根据我们对真实世界的观察。试想我们要给一个看起来相当简单的概念“打字能力”下一个操作性定义。想象一下你这么做是为了比较两种打字教学方法的优劣。思考一下你所要做的所有决定。当然,你想要测量“打字速度”。但是要打多长的一段文章呢?仅有 100 个单词的文章可能太短,而 10000 个单词的文章又似乎太长。那么到底多长才算好呢?打字速度维持多久才最符合我们对打字能力这一概念的理论建构?用什么类型的文章来测试呢?文章是否要包含数字、公式和不常见的间距?我们如何处理错误?当我们测量打字能力的时候,时间和错误似乎都应被考虑在内,但是,如果把这两个指标同时考虑进去的话,要如何来计算一个总分呢?我们想要让时间和错误具有相同的权重, 还是一个比另一个更重要?寻求一个好的操作性定义会迫使你认真考虑所有这一切;它会让你对如何将“打字能力”进行概念化做一番透彻的思考。

  概念的操作性定义要想有用,必须同时具备信度和效度。信度是指测量工具的一致性。如果你对同一概念进行多次测评,是否能够得到相同的测量结果。信度的科学概念很容易理解,因为它与常识中的定义以及字典里的定义非常相似:“任何总能够产生相同结果的系统所具备的一种属性”。
  试想一下,一个外行人士会如何评价一件事是否可信呢?想象一个每天早上要赶公共汽车从新泽西去曼哈顿上班的人。按照时间表,公共汽车每天应该在上午 7:20 到达此人等车的站点。在一个星期中,如果公共汽车到达的时间分别是 7:20、7:21、7:20、7:19 和 7:20,那么我们就可以说在那一周汽车的到达时间是可信的,如果下周汽车到达的时间分别是 7:35、7:10、7:45、7:55 和 7:05,那么我们就可以说在那一周汽车的到达时间是非常不可信的。
  在科学领域中,一个操作性定义的信度以类似的方式来评估。如果我们多次测量同一概念得到的结果是近似的,那么我们就说测量工具表现出较高的信度。如果在同一星期的周一、周三和周五,用同一 IQ 测验的不同版本测量同一个人的智力,得到的分数分别是 110、109、110, 那么我们可以说这一 IQ 测试是非常有信度的。相反,如果三个测试分数分别是 89、130 和 105,那么我们就可以说这一 IQ 测试没有显示出高的信度。有一些专门的统计方法可以评估不同类型的测量工具的信度,所有标准的方法论入门教材中都有介绍。

  对于一个操作性定义而言,仅有信度是不够的,信度是一个必要而非充分条件。作为一个好的操作性定义,操作必须被证明对于概念来说是有效的测量。“结构效度”这个术语是指一个测量工具(操作性定义)是否测量了它本应测量的内容。保罗·考兹比教授(Cozby, 2006)在其所著的方法论教材中为我们讲述了一个只有信度而没有效度的搞笑例子。假设你想测测自己的智力,测试者让你站到一个类似鞋码器的测试仪器上,然后仪器给出一个读数。当然,你会认为这是一个笑话。但是请注意,这个测量工具可以显示许多类型的信度,而这些信度在方法论教材中都会讨论到。这个仪器在星期一、星期三和星期五会呈现出相当一致的读数(这称之为“重测信度”),并且无论谁操作它,它都会给出一样的读数(称之为“评分者信度”)。
  用鞋码器来测量智力,其问题不在于信度(这是有信度的),而在于效度。它不是一个测量它本应测量的概念(智力)的合理方式。断定它不是测量智力的有效方式的证据之一,就是我们发现它和其他一些被认为与智力相关的变量无关。鞋码器的测量结果与学业成就无关,与脑功能的神经生理学测量无关,与职场成功无关,与认知心理学家提出的信息加工效率的指标无关

  在操作性定义中,我们寻求信度和效度兼备,因此高信度和高效度结合才是理想的目标。我们刚刚讨论了鞋码的 IQ 测试,目的是论证高信度和低效度是没用的。第三种情况是低信度和低效度,这绝对没有用,因此不值得讨论。但是你可能想知道第四种,也就是最后一种可能的组合方式:如果高效度和低信度又怎么样呢?答案是,和低效度和高信度的例子(鞋码器例子)一样,这种组合也是没用的。事实上,更准确的说法是,这类情况压根儿不可能出现。因为,如果不能进行可信的测量,你根本无法宣称测量是有效的。

  在心理学领域,智力概念的发展提供了一个类似的例子。起先,智力仅有一个严格的操作性定义:智力是通过心理功能测验所测到的东西。随着实验证据的不断积累,智力被证明与学业成就、学习、脑损伤、神经生理学及其他行为和生物学变量有关,这一概念在逐渐丰富的同时又得到了提炼(Deary, 2000, 2001; Geary, 2005; Lubinski, 2004; Sternberg, 2000; Sternberg & Grigorenko, 2002; Sternberg & Kaufman, 1998; Unsworth & Engle, 2005)。现在看来,在定义智力概念时,最好用一种高等级的建构,通过多种更为具体的信息加工操作来定义。当然,这些假设的信息加工过程应该具备更为直接的操作性定义,可以用可测量的指标来表述。
  人类记忆理论中的概念也以同样的方式发展。现代心理学家很少使用类似“记忆”或“遗忘”这样的笼统概念;相反,他们测量那些可以进行明确定义的记忆子过程,如短时听觉记忆、符号存储、语义记忆以及情景记忆。传统的“记忆”或“遗忘”的概念通过更加明确的操作性概念得到了细化。
  因此,理论术语的用法在科学实践中不断演进,而不是在针对文字意义的争论中获得发展。这是科学的操作态度和本质主义者在追求绝对定义之间最显著的区别。神经病学家诺曼·格什温德(Geschwind, 1985)将这种区别描述如下:“我认为,从医学发展的历史中,你能够了解一件事,那就是:许多人认为,研究一个问题的方式就是首先定义这个问题然后再去研究它。这种想法被一次次地证明是错误的,因为你发现,只有先知道了答案,才能正确定义问题”(p.15)。
  哲学家保罗·邱吉兰德(Churchland, 1988)强调,在科学中,对概念的定义不是源于文字界定,而是源于与之相关的观察和其他概念

  随着科学概念的演进,概念常常与许多不同的理论体系交织在一起,并且获得多种操作性定义。这种情况的出现并不是因为概念本身出了问题。例如,许多人认为心理学不可信,因为心理学中许多重要的理论概念——例如智力,可以用不止一种方法来操作化和概念化(Sternberg, 2000)。但这种情形并非心理学所独有,也不是一件令人绝望或束手无策的事情。事实上,在科学领域里,这种情况是普遍存在的。例如,“热”既可以从热力学理论,也可以从动力学理论的角度来概念化。物理学并未因此遭到贬斥。想想电子,它的许多特性都是以波的概念来解释的。可是,如果将其视为粒子,它的另外一些属性则更好理解。到目前为止,还没有一个人会因为物理学中存在着这些多重概念化现象就提出要抛弃它。

  人们对心理学产生误解的原因之一,就是心理学上所说的“预设偏见”。在第 1 章中我们提到过这个问题。人们不会出于执着于某种关于岩石性质的信念来研究地质学,而在心理学中,情况就大为不同了。我们每个人都有关于人格和人类行为的直觉理论,我们用它们来“解释”我们自己以及其他人的行为。我们所有的个人心理学理论里都包含着理论性概念(例如聪明、攻击和焦虑)。因此很自然人们会发问:为何我们必须接受一些其他的定义。尽管这种态度从表面上看来是合理的,但对于任何致力于理解人类行为的科学来说,它都是一个巨大障碍,也是公众对心理学产生困惑的一个原因。
  误解产生的最主要原因,也即媒体在准确呈现心理学成果方面最大的障碍,这就是,心理学中的许多专业概念都是用日常用语来表达的。这些日常用语为大量误解的传播敞开了大门。外行人很少意识到,当心理学家把“智力”、“焦虑”、“攻击”、“依恋”等词语当作理论性概念来使用时,它们的含义和大众平常所说的意思不一定相同。
  从之前关于操作主义的讨论中就能看出这种区别的本质。当在心理学理论中使用如“智力”、“焦虑”这些术语时,它们直接或间接的操作性定义决定了它们的正确用法。那些定义常常具有高度技术性,通常具有特定意义,并且在许多方面都不同于这些术语在日常生活中的运用。例如,当我们听到“对大样本的认知任务进行因素分析所得到的第一个主成分”这段话时,许多人都意识不到它是术语“智力”的操作性定义。

  爱因斯坦相对论中的“相对性”一词被公众理解为“绝对是不存在的,因为任何事物都是相对的”,而事实上,该理论的意思正好相反!兰道指出,实际上爱因斯坦的相对论认为:“尽管测量的实施者在测量时需要依赖他的参考物和参考系,但事实上他所测量的物理现象总有一个恒定的属性,这一属性超越了观察者的特定参考系”。爱因斯坦的相对论实际上是寻找物理现象的恒定属性的。事实上,爱因斯坦也认为他的这一理论如果被命名为“恒定论”会更加贴切。但是,“相对性”一词的地位在当时已经太过深入人心而难以改变了(p.13)。

  模糊的词语选择也是造成某些误解的根源,科学家经常使用一些口语化的术语。他们为这些用语赋予特定意义,但没有经过正规训练的人是不可能想到这种意义的”(p.13)。在心理学里也是如此。当心理学家和外行人用同一词语来表达不同含义的时候,他们之间常常产生误解。如果有新的词语产生出来用以描述心理概念,这样的困扰可能会少一些。有时会有这样的词语出现,正如物理学家有了“尔格”和“焦耳”一样,心理学家有了“失调”和“编码”,这些词不是凭空编造的,但在日常用语中比较生僻,从而可以防止混淆。
  “但是,”外行人可能提出这样的反对,“为什么心理学家这样折磨我们?为什么有这么多新的术语、高度专业性的定义、生僻的词语?为什么我们需要这些?为什么我对‘智力’概念的定义得不到他们的认可呢?”

  一个科学家必须通过如下方式“知道”智力是什么意思:他必须精确地定义一种方法,使其他实验者能够以完全相同的方法测量这一概念,并且得到有关此概念的相同结论。就其明确性和精确性来说,这与日常交谈中为了实现相互理解而使用的模糊语言间有很大差别。

  所有建立在“直觉”基础上的信念体系都有一个共同的问题,即当出现矛盾观点时,它们缺乏一种机制来判别哪个是对的,哪个是错的。因为人人都凭直觉认为自己是对的,但当大家的直觉观点发生冲突时,我们该如何决定谁正确呢?令人悲哀的是,历史表明,这种冲突的结果通常是权力斗争。

  只有当概念以操作性定义为基础,并且不关注于本质主义者所讨论的文字意义时,这类具有公众可用性的知识才能够用来解决人类的问题。例如,蒙克(Monk,1990)描述了二战期间“创伤性休克”这个概念是如何在医学领域产生问题的。一些医师对此症状的诊断依据是过高的血红细胞浓度,并认为其原因在于血液中的血浆渗透到了组织中。其他医师诊断“创伤性休克”则根据低血压、皮肤苍白和脉搏过速。换言之,医生们对这一概念的操作性定义是不一致的(甚至是带有个人色彩的),因此,英国医学研究会的格兰特(Grant)医生建议说,“创伤性休克”这个概念应该被抛弃,并且对伤者进行详细观察时也不使用这个术语……由于在诊断方面缺乏共同的基础,无法对各种治疗措施的效果进行评估”(Monk, 1990, pp.445-446)。换句话说,这种概念弊大于利,因为缺乏一个获得普遍认同的定义使之成为公共知识(也就是被广泛地分享与认同)。

  伊萨克·牛顿的地心引力理论有些地方不尽人意……毕竟,“在一定距离外作用”如何实现?牛顿回避了这样的问题……自从牛顿开始,物理学家们一直在仿效他的做法……物理学家们不再尝试解释为什么事物必须遵守电磁学规律或地心引力规律。(p.61) 同样,如果那些为人类本性问题寻求本质主义答案的人求诸于心理学,注定将会失望。心理学不是宗教,它是一个试图对所有行为做出科学解释的广阔领域。因此,心理学现在的解释是对行为的暂时性的理论建构,就目前来说,这些建构在解释行为方面优于其他解释。这些建构在将来注定会被更好的、更接近事实的理论概念体系所取代。

  深刻理解操作主义的原则,也有助于我们识别不具备科学意义的问题。例如,在我的电脑文件夹里,有一篇来自于国际联合出版社的在线服务文章,标题为《动物会思考吗?》。这篇文章讲述了动物行为方面最新的实验。文章中所引述的研究没有任何错误,但是,显然这个标题仅仅是一个玩笑。这个标题的问题在于没有科学意义,没有关于“思考”的操作性标准。许多报纸的标题中存在类似的问题,比如“计算机会思考吗?”没有操作性标准的话,这个问题也没有科学意义,但在鸡尾酒会上倒是可以大派用场。

  深刻理解操作主义的原则,也有助于我们识别不具备科学意义的问题。例如,在我的电脑文件夹里,有一篇来自于国际联合出版社的在线服务文章,标题为《动物会思考吗?》。这篇文章讲述了动物行为方面最新的实验。文章中所引述的研究没有任何错误,但是,显然这个标题仅仅是一个玩笑。这个标题的问题在于没有科学意义,没有关于“思考”的操作性标准。许多报纸的标题中存在类似的问题,比如“计算机会思考吗?”没有操作性标准的话,这个问题也没有科学意义,但在鸡尾酒会上倒是可以大派用场。

  预设偏见的力量在这种情况下显而易见。会有人这样反应吗?“哦,我不知道。既然有些计算机符合我提出的‘思考’的标准,那么我不得不说至少有些计算机是能够思考的吧!”通常大家是不会做出这样理智而诚实的反应的。更常见的情况是,人们开始寻找另一种标准,并期望计算机不能满足该标准。
  通常人们的第二选择是“创造性”(“想出一些有用而且没有人想到过的东西”——我们先不管大部分人是否满足这个标准)。当被告知大多数专家都认可计算机能够达到这个标准时(Boden, 2003;Pfeifer & Scheier, 1999),人们仍然不愿承认机器思考的可能性。人们常常不会想到要做出一个操作性定义,转而提出计算机是不可能思考的,因为“是人类制造了计算机并且设计了程序;计算机只是执行程序而已”。

  因为人们无法理性地接受机器有思考的能力,著名的计算机科学家艾伦·图灵(Alan Turing)设计出著名的“计算机能否思考”的实验。图灵设计的实验是一个操作性的实验,这对于我们的讨论是非常重要的。1950 年,图灵在题为《计算机器与智能》的著名文章中写道,“我建议去考虑‘机器可以思考吗?’这个问题。”他不想在鸡尾酒会那样的场合随意谈论这个问题,也不想如本质主义者那样无休止地讨论“思考”是什么意思,而是提出一个严格的操作性测试。他的想法是:如果计算机能够进行智能对话的话,那么就可以说它是有思考能力的。
  图灵这一设想中的创造性在于,他提出一种方式将问题变得可操作化,同时又防止了“预设偏见”的干扰。图灵对于检验计算机是否可以进行智能对话的测试逻辑进行了严格的限定。这个测试并不是让测试者通过键盘和屏幕与计算机互动,然后由测试者判断计算机有没有进行智能对话。图灵没有采用这种设计,因为他很担心“预设偏见”的干扰。图灵确信,一旦一个人坐到计算机、键盘和屏幕(显然是一些机器)之前,无论这个机器做什么,这个人都会否认它有思考能力。因此,图灵提出应控制与思考能力无关的外在因素。其著名的实验设计是让测试者通过两个键盘对话(一个和计算机相连,另一个和人相连,并且都在视线之外),然后再判断哪个是人,哪个是机器。如果被试不能以大于随机水平的正确率猜出哪一个是人,那么我们就有理由推断计算机具有同人一样的对话能力,而对话能力正是“思考”的操作性定义。

  科学的方式是先发展一种合理的操作性定义,然后看我们可以从中得出哪些关于思考、计算机和人类的结论。与之不同的是,预设偏见主导了大多数人的思维。他们已经得出了某一结论,并且对于计算机和人类的表现之间已被发现的差异并不感兴趣。相反,一旦形成定势,他们就会绞尽脑汁地去找出各种理由,来巩固自己的这些想法,避免发生改变。

第 4 章 见证和个案研究证据——安慰剂效应和了不起的兰迪

  这位观众使现场气氛骤然紧张,但是博士总是能够逢凶化吉:“哦,是的,我也曾经见过很多像你哥哥一样的个案。是的,我经常可以在我的从业中遇到这样的人。他们的‘期望上旋’的动力过程发生中断,生成潜意识的要求来抵抗父母转化到他们身上的期望。这样的话,个体的生活规划会朝着与传统成就标准相反的方向发展。”一阵肃然的沉默之后,讨论转向了下一个“案例”。
  这些场面我们都再熟悉不过了,只不过又是一个关于本杰明·拉什问题的例子罢了。关于出生次序的“理论”是在没有一个事例能够证明其“不成立”的思维框架下被构想出来的。由于它是一个不能证伪的理论,搬出再多能证明它的证据也没有意义,因为这个理论不能排除任何可能的情况。

  这在媒体心理学领域是一个惯用的套路。脱口秀节目和通俗心理学图书中充斥着基于作者临床经验的心理学理论。他们通过这类渠道提供给公众的许多疗法,能够支持这些疗法的,无非是那些曾接受治疗并认为得到了改善或被治愈了的人的个人见证。在本章中,我们将为心理学信息的消费者建立一个非常有用的原则:个案研究和见证作为评估心理学理论和治疗的证据是毫无价值的。

  个案研究的作用,很大程度上取决于科学探索在某个特定领域进展到什么程度。从个案研究或临床经验中获得的灵感,在特定问题的早期研究阶段或许比较有用,因为它们可以提示哪些变量需要进一步研究。个案研究在开启心理学新的研究领域方面起到过关键作用。让·皮亚杰(Jean Piaget)的工作中就是很著名的例子。皮亚杰的研究提出了一种可能性,即儿童的思维并不只是成人思维的简易版或低级版,而是有其自身结构的。皮亚杰关于儿童思维的部分推测已经被证实,但很多还有待证实(Bjorklund, 2004; Goswami, 2004)。

  然而,当我们从科学研究的早期阶段(在此阶段个案研究可能是极为有用的)步入更为成熟的理论检验阶段之后,情况就大大不同了。由于个案研究在特定理论的检验中不能作为证实或证伪的证据,所以它在科学研究的后期不再有效。其原因就是:个案研究和见证叙述都是所谓的“孤立事件”,缺乏比较性信息,而这种信息对于排除其他可能的解释来说是必要的。

  见证叙述与个案研究相似,因为它们都是孤立事件。依赖见证叙述的问题在于,如果累积起来的见证能够为几乎每一种疗法提供支持,那么它也就不可能用来支持任何一种特定的疗法,因为所有相互对立的疗法都有各自的见证。当然,我们想知道的是哪种疗法是最好的,但我们不能依据见证来决定。正如心理学家雷·尼克尔森(Ray Nickerson,1998)在评论我们用以欺骗自己的认知过程时所说的那样,“江湖郎中的骗术往往得逞,是因为他们总能找到一些病人愿意为他们做见证,这些病人总是发自内心地告诉别人,他们自己的确从治疗中获益匪浅”(p.192)。例如,有大量的见证声称潜意识自助式录音带(用一种低于听觉阈限的信号制作出来的录音带)可以提高人的记忆力,甚至提高人的自尊,然而,在严格控制条件下进行的研究显示,这类录音带对记忆力或自尊没有任何改进

  个案研究和见证叙述作为孤立的现象而存在,它们缺少必要的比较性信息,不能证明某一特定的理论或疗法更优越。因此,引用某个见证叙述或个案研究的结果来支持某一特定理论或疗法是错误的。

  几乎每种产生于医学和心理学的疗法都有一定数量的支持者,并且总能催生出一些发自内心认可其疗效的人。医学文献记载了猪牙齿、鳄鱼粪便、埃及木乃伊的粉末,以及很多更富想象力的东西都曾经具有疗效(Harrington,1997;Shapiro, 1960)。事实上,人们早已熟知,仅仅暗示正在接受某种治疗,就足以使许多人感觉病情好转了。
  无论治疗是否有效,人们都会报告某种疗法曾经对他们有所帮助,这种倾向被称为安慰剂效应(Christensen, 2001; Ernst

  实际上,直到近一百多年,医学才发展出较多具有确凿疗效证据的治疗方法,因此有人曾经这样说:“本世纪以前,整个医学史只能说是安慰剂效应的历史罢了”(Postman, 1988, p.96)

  安慰剂效应在抑郁症治疗中是 29%(即 29% 的病人服用安慰剂后报吿症状缓解了),在十二指肠溃疡中是 36%,在偏头痛中是 29%,食道炎是 27%(Cho,Hotopf, & Wessely, 2005)。一项研究(Bower, 1996b)建议,将安慰剂效应与当下流行的抗抑郁剂百忧解结合起来,将会最大限度地发挥药物自身的作用。安慰剂效应的效力是很强的,以至于曾有报告说有人对安慰剂成瘾(Bok,1974;Ernst & Abbot, 1999),这些人需要服用剂量越来越大的安慰剂来保持他们的健康状态!
  当然,在有关药物治疗的实际研究中,安慰剂控制并不只是一个什么都不含的药片,而是含有当前认为最有效的药用成分。实验比较的目的在于揭示,新药是不是比当前最有效的药还要好。
  你每次吃处方药时都会得到安慰剂效应的提示信息,下次吃处方药的时候(如果你非常健康,就看看你祖母的药吧!),仔细查看一下药物附带的说明书(或者登陆药品制造商的网站浏览一下),你将在药物问题说明里看到安慰剂效应的信息。例如,我吃一种叫做 Imitrex(琥珀盐酸)的药物来缓解偏头痛。此药附带的说明书告诉我:控制研究已经证实,在服用一定量的药物之后,57% 的病人在两个小时之内其症状得到了缓解(我就是这幸运的 57% 之一!)。但是说明书同时告诉我,同样的研究显示,这类偏头痛中安慰剂效应是 21%——有 21% 的人在服药后两小时内症状得到缓解,即使他们服用的药物里是中性材料而非琥珀盐酸。
  安慰剂效应在心理治疗中也很常见(Wampold et al, 1997)。许多有轻度和中度心理问题的人,在接受心理治疗后说他们的情况有所好转。然而控制研究证明:这一康复比例中,有相当一部分是由于安慰剂效应和时间推移这两个因素共同作用的结果,时间推移通常被称为自然康复现象。大多数有效的治疗都是由于治疗效果和安慰剂效应以某种不为人知的组合而产生的效果。正如多兹(Dodes, 1997)指出的:“即使严重的疾病也有恶化和缓解的时候;关节炎和多发性硬化症就是典型的例子。甚至癌症也会莫名其妙地消失”(p.45)。他同时也警告说,对于安慰剂的积极反应并不意味着病人的病是虚构出来的,他还警告,与流行的观念正相反,安慰剂可以是有害的:“安慰剂效应能够通过证实或强化想象中的疾病来‘诱发’慢性病。病人会对那些利用安慰剂效应的非科学从业者产生依赖。”

  保罗调查了几组学生,他们“在公开场合说话时会产生不适和焦虑”。实验组接受了针对语言紧张问题的脱敏疗法,85% 的被试表现出显著的改善。安慰剂组拿到了一些药片,他们被告知这些药片是有效的镇定剂,但实际只是一个碳酸氢钠胶囊。在该组中,有 50% 的人表现出明显的好转。第三组根本没有接受任何的治疗,仍然有 22% 的人表现出明显的好转。这样看来,对于这一特定问题来说,自然康复比例为 22%,另外 28% 表现出的改善产生于安慰剂效应(50% 减去 22%),脱敏疗法所具有的真实疗效则高于安慰剂和自然康复加起来的效果(85%>50%)。
  和保罗的研究类似,其他研究也显示,心理疗法确实优于只用安慰剂所产生的效果(Hollon et al.,2002; Lipsey & Wilson, 1993; Nathan & Gorman, 1998; Shadish & Baldwin, 2005)。但是,使用了安慰剂控制组的实验也表明,仅报告有多大比例的人感觉自己有所好转,会严重高估治疗的实际效果。问题就在于,得到见证叙述简直不费吹灰之力。康奈尔大学的心理学家托马斯·吉洛维奇(Thomas Gilovich, 1991)指出:“人类拥有如此容易自愈的身体,即使医生不做任何事情,很多寻求医学帮助的人也将体验到积极的疗效。如此一来,当自然康复的比率很高的时候,即使是毫无价值的治疗手段也能显得有效”(p.128)。简言之,无论干预的效果如何,只要运用治疗干预,潜在的安慰剂效应就会显现。问题在于,安慰剂效应是如此强大,以至于无论某个人使用的疗法多么荒唐,只要是被应用于一大群人的话,总有一些人会乐于为它的效果做出见证(清晨头部击打疗法,每天使用让你神清气爽!给我寄 10.95 美元,你就可以得到这个特制的、经过医学测试的橡胶锤)。

  发表在《新英格兰医学杂志》(England Journal of Medicine)上的一篇社论,论述了在医学科学的从业者眼中个案研究和见证叙述的地位。“例如,如果这本杂志收到一篇论文,说一个患胰腺癌的病人在服用了大黄根(rhubarb)后康复了……我们可能会发表一篇个案报告,但是,我们发表它并不是宣告它为一种新的疗法,而仅仅是推荐它作为一个值得用正规的临床实验进行验证的假设。与之相反,关于各类偏方秘方的轶闻(通常发表在通俗书籍和杂志上)则没有做出这样的声明,并且这些轶闻本身也不足以作为支持那些疗效的文献。”(AngeU & Kassirer,1998,pp.839—

  社会和认知心理学家已经研究了人类记忆和决策中的所谓“鲜活性效应”(Kunda,1999; Ruscio, 2000; Sinaceur, Heath, & Cole, 2005)。当面临问题解决或决策情境的时候,人们会从记忆中提取与当前情境有关的信息。因此,人们倾向于利用更容易获得的、能够用来解决问题或做出决策的信息。对可获得性造成强烈影响的一个因素,就是信息的鲜活性。

  问题在于,再没有比发自内心的个人见证更鲜活、更引人注目的了,这都是一些已经发生的事或者是真实的事。个人见证的鲜活性常常令其他一些更可靠的信息黯然失色。购物时,我们在不同的品牌前权衡了半天,最后却由于某个朋友或某则广告对于另一产品的推荐,而在最后一刻放弃了自己的选择。买车就是一个典型的例子。在翻看了《消费者报告》中的数千份消费者调查之后,我们终于决定要购买一辆 A 品牌的车;又参考了几本汽车杂志之后,看到里面的专家们也都推荐 A 牌子的车,这更坚定了我们的选择——直到在一次聚会上,我们遇到一位朋友,他说他一个朋友的朋友买了一辆 A 牌子的车,结果是辆残次品,光维修就花了几百美元,而且这哥们决定再也不会买这个牌子的车了。显而易见,这样一个个别案例本不该在很大程度上影响到我们的决定,因为我们是在收集了针对数千名用户所做的调查报告和众位专家的评判之后才决定要买 A 牌子的车的。然而,我们中究竟有多少人能做到不把这个个别案例看得很重呢?

  与我们生活中的其他任何行为相比,驾驶汽车都是一种极端危险的行为(Galovski, Malta, & Blanchard,2006; National Safety Council, 2001; Ross, 1999; Sunstein, 2002)。然而,关于它的风险和相对应的收益,从未有过全国性的大讨论。这对于住在郊外、需要驾车往返的人来说,是不是一个可以接受的代价?我们从不去问这样的问题,因为问题还没被意识到,而没被意识到的原因就是:代价和风险没有像空难那样以鲜活的方式呈现给我们。
  想想下面这个例子的荒谬之处吧。一个朋友开车 20 公里载你去机场,因为你要乘飞机作一次 750 公里的旅行。分别的时候,你的朋友很可能会说,“一路平安”,这个临别赠言其实是具有悲伤的讽刺意味的,因为你的朋友在回家的 20 公里路上死于车祸的风险,要比你飞行 750 公里的风险高出 3 倍(National Safety Council, 1990)。这就是鲜活性问题,它解释了 A 对 B 的安全祝福存在着明显的不合理性,因为恰恰是 A 正处在更大的风险之中(Sivak & Flannagan, 2003)。

  科尔(Cole, 1998)报道了这样一个民意测验,在环球航空公司(TWA)空难事故后,如果飞机能够提高安全系数的话,很多人都愿意为自己的往返机票多付 50 美元。同样是这些人,却拒绝为机动车中的安全功能支付 50 美元,即使那样会提供更加安全的保障。同样地,很少的人能够意识到,当他们驾车 10 公里去买一张彩票的时候,他们在车祸中丧命的几率要比他们获得头奖的几率高 16 倍(Orkin, 2000)!

  ,乘飞机出行的人数锐减,因为人们害怕飞行。当然,人们还要继续外出旅游,而不只是待在家里。他们只是改为其他方式出游——大多数情况下都是自驾车。但是,自驾游比飞行要危险得多,从统计学上讲,注定有更多人因转成自驾游而死亡。

  在媒体的帮衬下,鲜活性误导个人判断的情况在其他领域里也同样广泛存在。一项研究(MacDonald, 1990; Cole, 1998; Radford,2005)调查了父母最担心他们的孩子遭遇哪种风险。结果显示,父母最担心的是孩子遭绑架,而这一事件发生的概率是 1/700000。相形之下,父母则不太担心孩子在车祸中身亡的危险,然而这种可能性比遭绑架要高出 100 倍。显然,对绑架的担心大部分是媒体渲染的结果。这项研究结果说明,由于鲜活性效应对知觉的扭曲,“美国父母所担心的竟是一些不大可能发生的事”(MacDonald,1990)。一个研究人员哀叹道:将担心聚焦在“当下流行”的事件上,势必会误导父母的注意力,导致他们“忽视了他们本来能够施加更多影响的方面,例如学业成绩、看电视的坏习惯、吸毒和驾车安全等”(MacDonald,1990)。

  作家彼得·鲍耶尔(Boyer,1999)描述了支持持枪自由的议员们如何以同样的方式培养美国人对危险的错误知觉,他们试图将公众的注意力放在“入侵者”破门而入的鲜活案例上。这里的潜台词是:拥有一杆自我保护的枪将会降低你的风险。鲍耶尔(1999)指出了具有讽刺意味的事实,当真实的统计展示了真正的问题在于“枪在好人手里”的时候,枪械制造工业却力图关注“枪在坏人手里”。在这个国家,罪犯并不是导致大多数枪击死亡案的原因。饮弹自尽的人数事实上要远多于被枪杀的人数。大多数死于枪支的人都是枪支走火和自杀——这就是为什么有研究指出,把枪支带回家实际上反而增加了家庭的风险(Miller,Azrael, & Hemenway, 2002; Samuels, 2004)。

  最后,我们对可能患上糖尿病的担心要小于对因感染葡萄球菌而住院的担心,即使前者波及 450 万美国人,而后者每年只有 1500 人而已(Fountain, 2006)。这是因为,就个人而言,我们能够对前者做出一些对策(改变饮食或者锻炼),而对后者却无能为力。

  人们有这样一种倾向:即使能够获得更为精确的信息,人们的判断也常常受到某个突出例子的影响,

  在研究中,被试被告知他们将会免费得到一些他们自己选择的避孕套。被试被告知可以参考以下两类信息中的任何一类或两类:一类信息是在《消费者报告》杂志中的一篇调査报告,另一类是两个大学生的观点。尽管此组中只有不到 15% 的人愿意接受两个大学生的观点,但还是有 77% 的人同时询问了两类信息。很显然,被试无法抵御他人见证的诱惑,尽管他们不认为自己会受其影响,但他们事实上却被影响了。当被试同时选择了解两类信息并且这两类信息相互冲突时,接受学生推荐意见的人数比接受《消费者报告》推荐意见的人数多 31%。

  在 20 世纪 60 年代中后期媒体对越战的报道。随着战事的拖延,美军的死亡人数仿佛无休止地增加,媒体开始报道当周美军死亡的人数。一周接一周地过去了,这个数字在 200 至 300 之间徘徊,公众似乎已对这种报道习以为常了。然而,某杂志用几个版面的篇幅连续刊登了前一周阵亡者的个人照片。这时公众非常具体地看到了在这样一个有代表性的一周内逝去的大约 250 个鲜活的生命。结果,此举导致了大规模的、针对这场代价巨大的战争的抗议声浪。250 张照片所产生的影响是每周数字报道所远不能及的。但是作为一个社会成员,我们应该克服这种不相信数字、必须亲眼目睹才去相信的倾向。绝大多数影响我们社会的复杂因素都只有靠数字才能捕捉。只有当公众学会像重视图像材料一样重视以数字形式表达的抽象材料时,公众自己的立场才不会像屏幕上闪过的最新图像那样变化无常。

  战死的人数并非没有被报道,这 700 多人死亡的消息日复一日地出现在这个国家的每一份报纸上。但是争论的双方都知道,公众尚未对那些数字进行“加工”——没有计算代价,是因为那些数字还太过抽象。双方都知道很多人在看过这些照片之后,都会从头对这些信息进行加工,并开始真正在意战争的代价。

  不仅公众受到鲜活性问题的困扰,在心理学和医学领域,有经验的临床从业者一直都在努力摆脱个别案例的压倒性影响给他们的决策带来的阴影。

  评估证据的时候,鲜活性问题是一个我们都要面临的难题。并且,在这样一个充斥着媒体影像的环境中,对于社会来说,不受影像支配而基于有效的证据来解决自身的问题变得越来越困难了。作家巴瑞·格拉斯纳(Glassner,1999)讲述了一个特别相似的例子。在 1995 年的一场奥普拉秀中,围绕着某一次外科手术而展开讨论(这里不具体说出外科手术的名字,以免渲染鲜活性效应)。这种手术引起了一些争议,因为一些人声称在手术过程中受到过伤害。来自梅奥临床医院、哈佛大学和密歇根大学的研究证据都显示,这种手术总体上是没有危险性的。就在此时,一位声称受到过伤害的妇女从观众席里跳出来并喊道:“我们就是证明,我们这些坐在这儿的人就是结论!(Glassner,1999,p.164)。你认为哪种说法会让数百万电视观众记忆犹新——是来自梅奥临床医院的研究,还是大喊自己就曾受到过伤害的那位妇女?

  在几年前纽约的一个节目中,他对观众说,今天早晨开车经过新泽西的时候,他看到一个澄色的 V 形物体飞过头顶飘向北方。几秒钟之内,正如兰迪所说,“电台的接线总机像一棵电子圣诞树般闪烁起来”。一个接一个的目击者打电话过来证实这一奇异的景象。可他们运气不好,这一“景象”只是兰迪想象出来的,但是打电话的人提供了许多兰迪“忽略了”的细节,包括其实有多个“飞碟”飞过。这个小小的把戏证明,个体关于“某事发生”的报告是多么不可靠。

  巴纳姆效应(Bamum,著名的嘉年华和马戏团的团主,提出了“每分钟都会有人上当受骗”的说法)现象的范例。这一效应曾被心理学家广泛地研究(例如,Dickson & Kelly,1985),研究者发现,大多数成年人都会认为泛化的个性总结都是准确的,并且都是对自己独特的描述。这里有一个来自谢尔默(Shermer, 2005, p.6)的例子

  用见证来支持自己提出来的特定理论是毫无意义的。检验一个主张时,只有来自于有控制的观察中的证据(第 6 章中将会描述)才是足够充分的。

  当我正在讲述这个话题的时候,经常有人会针对我的演讲提出非常中肯的问题:“你不也是正在用生动的个案来阐述你的观点吗——这种做法难道不正是你所反对的吗?”这个问题问得好,并且它让我有机会详细阐述本章中包含的一些论点间的微妙之处。这个问题的答案是肯定的,我运用了生动例子来阐述观点。但是,是为了阐述观点,而不是为了证明观点。这里的关键是要区分两点:主张的提出和主张的交流。对于每个主张,我们都能问这样一个问题:它是不是基于鲜活的见证?这会产生四种可能的情况:
  1. 一项主张基于鲜活的见证,同时依靠鲜活的见证来交流 2. 一项主张基于鲜活的见证,同时不依靠鲜活的见证来交流 3. 一项主张基于证据而非鲜活的见证,同时依靠鲜活的见证来交流 4. 一项主张基于证据而非鲜活的见证,同时不依靠鲜活的见证来交流 本章中的一些讨论属于第 3 种情况:一项主张基于证据而非鲜活的见证,同时依靠鲜活的见证来交流。例如,我引用了很多非见证的证据贯穿整章,就是为了说明:个案研究的证据不能用于建立因果性结论,鲜活的例子在人们的判断中被赋予了过高的权重,伪科学的代价巨大等等。对于这些主张中的每一项,我都标出了引证和参考文献。尽管如此,出于交流的目的,我使用了一些鲜活的案例,将注意力吸引到这些主张上,并让它们给人们留下深刻的印象。关键的一点是,支持这些主张本身的并不仅仅是鲜活的见证。比如,我曾使用一些鲜活的例子来阐述“鲜活的例子在人们的判断中被赋予了过高的权重”这一事实,但是这一主张的证据包含在我所引用的经过了同行评议的科学证据之中(例如,Kunda, 1999; Lassiteret al., 2002; Nisbett & Ross,1980; Sinaceur, Heath, & Cole, 2005)。

  个案研究和见证叙述在心理学(以及其他科学)研究的早期阶段是有用的,因为此时,寻找有趣的现象和待研究的关键变量很重要。虽然个案研究在早期的、理论形成前的阶段是有用的,但在研究的后期,当对理论进行检验之时,个案研究就毫无用处了。这是因为,作为一个孤立现象,个案研究的结果遗漏了太多其他可能的解释。为何个案研究和见证证据对于理论检验来说是没有用的?要想理解这一点,就需要想一想安慰剂效应。安慰剂效应是指,无论疗法是否包含了有效的成分,人们都倾向于报告任何疗法都对他们有效。安慰剂效应的存在,催生了许多关于疗效的见证叙述,致使对一种心理(或医学)疗法效果的证明成为“不可能的任务”。原因就在于,无论治疗手段是什么,安慰剂效应都会使人们提出证实其疗效的个人见证。
  尽管见证证据在检验理论的时候是无用的,但心理学研究指出,由于鲜活性效应,这类证据经常被人们过分地倚重:对于更为生动、并因此在记忆中更易提取的证据,人们会赋予其过高的权重。对大多数人来说,见证证据就是一种格外生动和鲜活的信息,因此,人们在验证某一心理学主张的合理性时,会过度依赖这类证据。事实上,理论主张是否合理,是不能用见证叙述和个案研究的证据来判定的。

第 5 章 相关和因果——用“烤箱法”避孕

  在 20 世纪初期,数以万计的美国南部民众罹患并死于一种叫做糙皮病的疾病(大约每年 100000 人死亡)。糙皮病被认为是由一种不明微生物引发的传染性疾病,其主要症状是头晕、嗜睡、溃疡、呕吐和严重腹泻(Chase, 1977, p.205)。此后,许多来自全国糙皮病研究学会的医生都认同这样的证据:糙皮病和卫生条件有关。这并不令人吃惊。家在南卡罗来纳州斯帕坦堡的人们似乎总是远离糙皮病的困扰,因为他们有自来水管道和良好的污水处理设施。这种相关恰好验证了这样的观点:由于糟糕的卫生条件,传染性疾病是通过糙皮病患者的排泄物传播开来的。
  一位叫约瑟夫·戈德伯格(Joseph Goldberger)的医生对这种解释非常怀疑,在美国公共卫生部部长的指示下,戈德伯格针对糙皮病开展了许多研究。他认为糙皮病是由于营养不均衡的饮食引起的,简而言之,是美国南部普遍的贫困造成的。许多的患者赖以生存的都是高碳水化合物、蛋白质含量极低的饮食,如很少量的肉类、蛋类、牛奶,以及大量的谷类、燕麦和玉米粥。戈德伯格认为污水处理条件和糙皮病之间的相关在任何一个方面都无法反映因果关系(和烤箱控制生育的例子一样)。他认为根本原因在于,拥有清洁管道的家庭通常也都是经济状况良好的家庭,经济上的差异也会反映在他们的饮食上,经济状况好的家庭在其饮食中包含更多的动物蛋白。
  但是,请等一下!为什么戈德伯格的因果推断就一定是对的呢?毕竟,两派人马都是坐在那里,根据相关数据推论什么才是造成糙皮病的原因的。为什么医学会的医生们不能说戈德伯袼的相关同样也是误导性的呢?为什么戈德伯格能够推翻别人的假设——一种微生物通过糙皮病患者的排泄物传播,而这种传播是因为不完善的污水处理设施造成的?戈德伯格对糙皮病的判断还涉及一个小细节,这个细节我刚才没说:戈德伯格吃下了糙皮病患者的排泄物。

  戈德伯格有一类这样得来的证据:研究者不仅观察相关性,还靠真正地操纵关键变量来收集数据(有关控制操纵,将在下一章进一步讨论)。这种方法经常要创造一些通常极少会自然出现的条件——说戈德伯格设计的特殊条件不会自然出现,无论怎样强调都不会过分。
  戈德伯格确信糙皮病是不会传染的,也不会通过患者的体液传播,他给自己注射了一名患者的血液,还吃进一名患者喉咙和鼻子内的分泌物。此外, 他还选择了两个病人:一个有皮癣症状,另一个有腹泻。他从皮癣处刮掉鳞屑,然后和该病人的 4 毫升采液混合到一起,然后再加上相同数量的液体排泄物,最后与 4 小撮面粉揉在一起做成小药丸。戈德伯格、戈德伯格的助手以及戈德伯格的妻子自愿服下这些药丸。(Bronfenbrenner & Mahoney, 1.975, p.11)) 无论是戈德伯格,还是其他的志愿者,都没有染上糙皮病。简言之,戈德伯格创造了这个传染疾病可能传播的所有条件,结果平安无事。
  戈德伯格对其他人提出的因果机制进行了操作,结果显示该机制是无效的,尽管如此,对他自己提出的因果机制进行检验仍然非常必要。戈德伯格选择了来自密西西比州监狱农场的两组犯人,这些人都是没有患糙皮病的,并且都是自愿参加实验。其中的一组人被给予高碳水化合物、低蛋白质的食物,这种类型的食物是戈德伯格怀疑引起糙皮病的原因。另一组被试被给予(营养成分)更均衡的饮食。5 个月后,低蛋白质的这一组患上了糙皮病,而另一组却没有丝毫的患病迹象。戈德伯格的理论遭到了一些人的反对,这些人出于政治动机而否认贫困的存在。经过长期的抗争,戈德伯格的假设终于被人们所接受,因为他的假设与实验证据的契合程度是其他任何假设所不能比拟的。

  在许多场合,我们必须用到相关(见第 8 章),而在某些情况下,只要有相关就够了(例如,当我们的目标是预测而不是决定原因的时候)。科学家们经常不得不使用不充分的知识来解决问题。重要的是,我们在运用相关性证据的时候要谨慎小心。像“糙皮病-污水”这样的案例,在心理学研究的每个领域内都频频发生。这个例子也揭示了“第三变量问题”:事实上两个变量之间的相关——这个例子中是糙皮病的发病率和污水处理条件——并不意味着这两个变量之间有直接的因果关系,相关之所以产生,是因为这两个变量都分别与第三变量相关——这里是饮食——而这个变量没有被测量。像这种污水处理条件和糙皮病之间的相关,我们通常称之为“虚假相关”:相关的产生不是因为两个变量之间存在一个可以测量的直接的因果联系,而是因为这两个变量都与第三变量相关。

  多年以来,有关公立学校和私立学校教学质量的争论甚嚣尘上。从这场争论中得出的一些结论,很生动地展示了从相关证据推出因果关系的弊端。私立学校和公立学校的好坏是一个实证性问题,可以使用社会科学中的调查研究方法来辨别真伪。但是,这并不意味着只要这个问题是个科学问题、有可能获得解决,就是一个非常简单的问题。所有鼓吹私立学校优越性的人都潜在地意识到这一点,因为他们在维护自己的观点时,常常引用这样一个经验性的事实:私立学校学生的成绩要好过公立学校。尽管这个事实无可辩驳——各种研究中有大量一致的教育统计数据,但问题在于,用这些学生的成绩数据就推出结论,即私立学校的教育本身导致了较高的分数,这么做是否合适?
  考试成绩是许多不同变量的函数,这些变量彼此之间又是相关的。为了评估公立学校和私立学校的好坏,我们需要进行更为复杂的统计,而不仅仅是学校类型和学业成就之间的相关。例如,学业成就和家庭背景中许多不同指标都有关系,如父母的教育程度、父母的职业、社会经济地位、家中藏书的数量以及其他一些因素。这些特征都与是否把孩子送到私立学校有关系。因此家庭背景是一个潜在的第三变量,可能会影响到学业成就和学校类型之间的关系。简言之,学业成就可能和学校质量没有任何关系,而结果可能是:家境优越的孩子学习更好,更有可能进入私立学校。
  幸运的是,还有许多复杂的相关统计方法,例如多元回归、偏相关、路径分析(统计学的发展部分要归功于心理学家),这些复杂的统计方法能够去除其他变量的影响、提出公因子或定义协变量之后重新计算两个变量之间的相关。来自杜克大学的艾利斯·佩奇和蒂莫西·凯斯(Ellis Page & Timothy Keith, 1981)则使用更为复杂的统计技术,分析了一系列关于高中生教育的统计数据,这次统计数据的收集是在国家教育统计中心(NCES)的资助下进行的。他们发现,当反映学生家庭背景和一般智力能力的变量被排除后,学业成就和学校类型之间几乎就没有一点关系了。其他研究者也确认了他们的研究结果(Berliner & Biddle, 1995; Carnoy, Jacobscn, Mishel, & Rothstein, 2005)。
  因此,很明显,鼓吹私立学校能够提高教育成就,就跟讨论节制生育需要用“烤箱”一样没什么分别。学业成就和私立学校相关,不是因为任何直接的因果机制,而是因为私立学校中学生的家庭背景和一般认知水平与那些进入公立学校的学生相比是不一样的。
  这些较为复杂的相关统计方法,能够排除第三变量的影响,但并不总是会削弱原有相关的强度。有时候,在排除第三变量之后,两个变量之间的原有相关仍然存在,这个结果本身就能提供一些信息。这样的结果说明,原有相关并不是由第三变量所导致的虚假相关。当然,并不排除其他变量也会导致虚假相关。

  托马斯、亚历山大和埃克兰德(Thomas, Alexander, & Eckland, 1979)提供了数据分析方面的一个好例子。这些研究者发现,高中生是否进入大学和这个学生的家庭社会经济地位有关。这是一个重要发现,足以动摇我们这个社会的核心价值——实现目标靠的是个人能力。它表明,一个人的成功取决于这个人的经济地位。但是在下这个结论之前,我们必须首先考虑一下其他假设。这就是:升入大学和社会经济地位之间的相关是一种假象。其中一个非常明显的第三变量就是学业能力,它可能与升入大学和社会经济地位都有关系,如果这个变量被排除出去,这两个变量之间的相关就会消失。在学业能力被排除后,研究者计算出的数据发现,升入大学和社会经济水平的相关仍然显著。因此,高收入阶层的孩子更容易进入大学不能完全归因于学业能力的不同。当然,这个发现不能排除这种可能性:其他一些变量导致了升入大学和社会经济水平之间的相关,但是能够用这样一种再分析来排除学业能力对两者相关的影晌,这本身就在理论及实践方面具有很重大的意义。
  安德森等(Anderson & Anderson, 1996)描述了他们是如何来检验关于暴力的地区差异理论的,他们通过检验一系列不同的理论看其是否能够对所收集的数据做出解释。他们采用偏相关技术来进行此项研究。曾有研究表明美国南部地区的暴力犯罪高于北部地区,他们检验了“热假设”——令人不适的高温增强了侵犯性动机和攻击性行为(p.740)。他们发现城市平均气温和暴力犯罪率之间存在相关,这并不令人奇怪。但是从统计上控制一些变量,如失业率、个人平均收入、贫困率、教育程度、人口规模及其他一些变量之后,气温和暴力犯罪之间的相关仍然显著。这就使得“热假设”理论的可信度大大提高了。

  最近十几年以来,研究者们已经明确指出,文字解码和语音加工方面的语言问题是阅读障碍存在的根源

  原因。“选择性偏差”这个术语指的是特定主体和环境变量之间的关系,当不同生理、行为、心理特点的人们选择不同类型的环境时,就有可能出现选择性偏差。选择性偏差造成环境特征和行为-生物特征之间的虚假相关。
  让我们通过一个例子来了解选择偏差是如何产生虚假相关的。请快速说出一个州名,在这个州里,由呼吸系统疾病导致的死亡率高于平均水平。当然,答案之一是亚利桑那州。什么?等等!难道亚利桑那州没有清洁的空气吗?难道洛杉矶的烟雾弥漫得如此之远?难道凤凰城的郊区环境已经变得那么差了吗?不是,肯定不是!让我停下来想一想。可能亚利桑那州的确有清洁的空气,可能患有呼吸疾病的人都愿意搬到这里,然后他们死在了这里。这样就对了。如果我们不够认真,就会出现上面所说的那种情形:我们可能会受到误导,认为是亚利桑那州的空气害死了这些人。(亚利桑那州在美国西部,以地广人稀、气候干燥、空气清洁著称——译者注)

  来自临床心理学的例子可以表明,选择性偏差问题是多么地具有欺骗性和违背常理。研究数据有时会显示,接受心理治疗的人在各种成瘾症——如肥胖、吸毒、吸烟——的治愈率方面,要低于那些没有接受过心理治疗的人(Rzewnicki & Forgays, 1987; Schachter, 1982)。你想知道原因吗?原因并不是因为心理疗法使得成瘾的行为更加难以改变,而是因为那些寻求心理治疗的人的成瘾问题更复杂和棘手,而且很少能够自愈。

  提防选择性偏差的发生;当只有相关时,应避免因果推论。不可否认,复杂的相关数据里确实存在着有限的因果关系。同样不可否认的是,相关的证据有助于证明假设的聚合效度(见第 8 章)。然而对于心理学知识的消费者来说,宁可站在怀疑的角度,也不要被那些错误地暗示了因果关系的相关所蒙蔽。

  确保选择性偏差不会捣乱的唯一方法,就是在操纵所有变量的情况下进行真正的实验。

第 6 章 让一切置于控制之下——聪明汉斯的故事

  当时伦敦有许多不同的供水源,每个供水源给不同的地区供水,所以不同供水系统受感染的程度不同,霍乱的发生率应该因供水源受污染程度的不同而存在差别。但是斯诺发现,这种比较会出现严重的选择性偏差(请回想一下第 5 章的讨论)。在伦敦,不同地区的贫富差距非常大,因此,供水系统和各地区患病率之间的任何相关都会受到其他能够影响健康的、与该地区的经济发展水平相关的变量的影响,如饮食、压力、工作危机或生活质量。简而言之,获得虚假相关的可能性很大,这和第 5 章所讨论的糙皮病和污水的关系类似。但是斯诺非常机敏地注意到了一种已经出现过的特殊条件,并利用这一点解决了问题。
  在伦敦的一个市区,碰巧有两家自来水公司对同一个社区供水,但从供水布局上来说是杂乱无章、毫无规划的。在某条街道上,一部分住宅是由其中一家自来水公司供水,一部分是由另外一家自来水公司负责供水,这种情况发生的原因是由于最初两家公司存在竞争。甚至有这样的情况,一栋房子由一家公司供水,而与它毗邻的房子却是由另一家公司供水。因此斯诺找到了几个由两家公司分别供水的家庭,并且这些家庭的社会经济地位基本相同,或至少是非常接近的。如果两家自来水公司都受到污染,那么这种选择仍旧是没有任何意义的,因为这样斯诺就不能发现水污染与霍乱的发病率有什么关系了。所幸的是,这种情况并没有发生,这两家公司的水并未同时受到污染。
  在一波霍乱流行过后,兰姆博斯(Lambeth)公司为了避免水污染,将公司迁到泰晤士河的上游,而南沃克-沃克斯霍尔(SouthwarkScVauxhall)公司却仍然固守在下游。因此,兰姆博斯公司的水系统受污染的可能性比南沃克-沃克斯霍尔公司要小得多。斯诺通过化学检验也证明了这一点。剩下的工作就是统计由两家不同公司供水的家庭的霍乱发病率:兰姆博斯公司供水的每 10000 个家庭里有 37 人死亡,南沃克-沃克斯霍尔公司供水的每 10000 个家庭里有 315 人死亡。

  斯诺幸运地找到了一种自然情境,这种情境使得他能够排除其他的可能性。这种在自然情况下产生的“比较”条件并不多见。让科学家坐在那里等待这类情况发生是十分荒谬的。事实上正相反,很多科学家都试图以一种区分各种不同假设的方式来重构世界。为实现这一目的,他们必须操纵被认为是诱因的变量(在斯诺的实验里是被污染的供水系统),然后在保持其他所有相关变量不变的情况下,观察是否会有不同的结果(霍乱的发病率)。被操纵的变量称为自变量,随着自变量变化而变化的变量称为因变量。
  因此,一个好的实验设计应该是这样的:科学家能够操纵他感兴趣的变量,并对其他可能影响实验的无关变量进行控制。需要注意的是,斯诺并没有这么做。他不可能操纵供水系统的污染程度,但是他找到了这样一种条件,即供水系统受污染的程度是不同的,并且与社会经济水平有关的其他变量侥幸得到了控制。可是这种自然发生的情境不仅很少见,而且也不如直接的实验操纵那么有说服力。
  约瑟夫·戈德伯格就是直接操纵变量,他假设这个变量就是引起某种特别现象的原因。戈德伯格不仅对与糙皮病相关的变量进行观察和记录,他还在一系列研究中直接操纵了其他两个变量。回想一下,他安排了低蛋白饮食的囚犯组来诱发糙皮病,同时安排吞食糙皮病患者排泄物的志愿者,其中还包括他妻子和他自己。因此,戈德伯格不仅观察了自然发生的情境,还创设了特殊条件组,从而排除一系列其他可能性并获得实验结果,这种推论要比斯诺的方法更具说服力。这也正是为什么科学家要试图操纵一个变量并保持其他所有的变量不变的原因:为了排除其他的可能性。

  我们这里并不是说斯诺的方法毫无可取之处。但科学家们的确愿意更为直接地操纵实验变量,因为直接操纵变量能够产生更具说服力的推论。细想斯诺的两组被试:一组由兰姆博斯公司供水,另一组由南沃克-沃克斯霍尔公司供水。由于处在同一个地区,可能保证了两组被试的社会地位几乎相同。但是类似斯诺这类实验设计的缺陷是:它是由被试决定自己属于哪一个组的。因为他们早在几年前已与两家自来水公司签订了供水合同。我们还必须考虑为什么一些人与这家公司签约,而另外一些人与那家公司签约。是不是一家公司比另外一家公司的口碑好?是由于这家的价钱比较便宜,还是广告说这家的水有很好的药用价值?我们不得而知。关键的问题是:这些人选择其中一家公司是不是因为该公司做广告说他们的产品质量优于另外一家,特别是对人的健康有益处?而或许这些因素才是低发病率的真正原因。这是有可能的。
  类似斯诺这样的实验设计就无法排除那些更为微妙的虚假相关,这类虚假相关不像其他与社会经济地位有关的相关那样容易被看出来。这就是科学家倾向于直接操纵他们感兴趣的变量的原因。当操纵变量与一种叫做随机分配的程序(在随机分配中被试不能决定自己进入哪种实验条件,而是被随机分配到某一个实验组)相结合时,科学家们就能够排除那些可以归因为被试本身特征的解释了。随机分配确保被试在对比实验条件下的所有变量基本保持一致,随着样本数量的增加,它还能平衡掉一些偶然因素。这是因为被试的分配是由不带偏见的随机方法实施的,而不是由某个人的选择决定的。请注意这里的随机分配与随机样本不是一回事,这两者的区别我们将会在第 7 章进行讨论。
  随机分配是一种将被试分配到实验组和控制组的方法,以保证每个被试有同样的几率被分到其中一个组。掷硬币就是一种决定某一被试分到哪一组的手段。实际实验中往往采用电脑生成的随机数字表。通过使用随机分配,研究者在研究之前就试图平衡两组的所有行为变量和生理变量,甚至是那些研究者没有进行专门测量或考虑到的变量。
  随机分配的效果如何,取决于实验中被试的数量。也许你会认为被试越多越好,也就是说,分配到实验组和控制组的被试的数量越多,两组间除了自变量以外的其他所有变量就越接近。但幸运的是,对于研究者来说,其实每组只需要一个相当少的人数(例如 15-20 人),随机分配就可以起到很好的效果。
  使用随机分配能有效避免由于分组方式所导致的系统误差。这两组被试在所有变量上均得到匹配,但即使存在一定程度的不匹配,随机分配也消除了实验组或控制组之间的偏差。如果我们了解一下“重复”这个概念,对于随机分配如何去除系统误差这个问题就比较好理解了,所谓的重复是指在各种环境下重复一个实验,看还能否得到同样的实验结果。
  设想一下,一个发展心理学家想要做一个关于早期丰富体验对学前儿童的影响的实验,在日托期间,随机分配到实验组的儿童每天接触心理学家设计的大量丰富活动,随机分配到控制组的儿童在同样的时间里只是参加一些比较传统的游戏活动。因变量是儿童上学一年后的期末成绩,通过成绩考察实验组儿童的表现是否优于控制组儿童。
  像这样的实验就会用到随机分配,以确保两组在实验之初,所有能够影响因变量的无关变量都基本保持一致。这些无关变量有时被称为干扰变量。这个实验中的干扰变量可能会是儿童的智力测验成绩和他们的家庭环境。随机分配将会在大体上使两组间在这些变量上保持平衡。但也有例外,尤其当被试人数很少时,两组仍然有可能存在差异。例如,如果随机分配之后,实验组儿童的智力测验的成绩是 105.6,控制组的是 101.9(尽管恰当地使用了随机分配,这种差异还是有可能发生),我们就会担心实验组的学业成就的任何变化缘于该组儿童的智力测验成绩高,而不是由于他们经受了丰富的体验。这里就能看出重复验证的重要性了。后续研究进行随机分配之后,两组仍然可能存在智商差异,但是随机分配程序避免了系统误差,这就能够保证这种差异不会总是出现在实验组。事实上,无系统误差这一点所确保的是,在一定数量的类似研究中,智商差异出现在实验组和出现在控制组的概率是相等的。在第 8 章我们将会讨论如何使用这种多重的实验来提高结论的聚合效度。
  因此,随机分配程序有两个优点。一个是在任何实验中,样本的数量越大,随机分配越能平衡两组所有其他的无关变量。而即使在一些匹配得不是特别好的实验里,由于随机分配克服了系统误差,仍然可以让我们得出令人信服的结论——只要研究可以被重复。

  科学研究中不乏由于缺乏真实验的完全控制而得出错误结论的例子。罗斯和尼斯贝特(Ross & Nisbett, 1991)提到一个发生在 20 世纪 60 年代中期的案例:门腔静脉分流术一度是一种非常流行的治疗肝硬化的方法。1966 年人们开始对此疗法进行大量研究,并且发现了一种令人感兴趣的现象。在 96.9% 的不包含控制组的研究中,医生判断这种治疗方法的效果至少在中等程度以上。在有控制组但没有使用随机分配的研究中(因此不属于真实验设计),86.7% 的研究显示同样的结论。但是,在有随机分配的控制组的研究中,只有 25% 的研究显示同样的结论。因此在今天,这种特殊治疗方法被认为是无效的,但在当时,由于没有进行完全的实验控制,治疗效果被夸大了。罗斯和尼斯贝特(1991)指出,“没有使用较为正式的实验程序所获得的积极效果,要么是‘安慰剂效应’的产物,要么是由于没有使用随机分配而产生的偏差”(p.207)。罗斯和尼斯贝特还继续探讨了“当没有使用随机分配的时候,选择性偏差是如何产生虚假相关的”这一问题。例如,如果一些病人被选作某种治疗方法的研究被试,他们可能会努力做一名好的参与者,或者他们拥有家庭的支持、积极的态度或者他们的家人对其病情更为关心,这些都可能影响实验组与控制组的差别,而这与治疗方法的效果没有任何关系。
  在下结论之前必须获得“比较信息”,这种思维倾向并不是与生俱来的,这就是为什么所有科学研究都要经过训练。这些训练包括强调控制组的重要性的研究方法课程。控制组和实验组很像,只不过缺少一种重要因素的影响。

  世界上发生的任何事情通常都与其他许多因素有关联。为了对许多同时发生的事件所造成的因果影响分别进行考察,我们必须创设一些通常情况下不会出现的条件。科学实验将世界上原有的相关分割开来,以此来使单一变量的影响显现出来。
  心理学家采取的也是同样的方法:通过操纵和控制来分离变量。例如,认知心理学家们对阅读的过程很感兴趣,他们对促进或阻碍文字识别的因素进行了研究。毫无疑问,他们发现较长的单词比较短的单词更难识别。乍一看,我们会认为单词长度的影响是很容易测量的:简单地设置两组单词,一组长的,一组短的,然后测量两组读者识别速度的差异。不幸的是,事情远没有那么简单。长度较长的词,其使用频率可能也较低,而使用频率本身也会影响识别。因此,长词与短词之间的任何差别都可能是由于长度、使用频率或两个因素共同作用而造成的。为了明确到底词的长度能否独立地对词的识别造成影响,研究者必须创造一些特殊的词,它们的长度与使用频率不是同时变化的。
  与之类似,戈德伯格之所以能够做出强有力的原因推断,是由于他设置了一组非自然发生的特殊条件(想一下他的一个实验操纵是要被试吃下人体的排泄物,这是何等的“不自然”啊!)。回想一下奥斯卡 . 芬斯特设置的一些测试“聪明汉斯”的实验条件,其中包括一些提问者也不知道答案。那些仅仅观察马在自然条件下(提问者知道答案)回答问题的人,非但永远不可能发现那匹马是如何做到这一切的,反而会得出错误的结论,认为那匹马真的具有数学知识。

  心理学家哈里·哈洛(HarryHarlow)的著名实验(Anderson & Anderson,1996; Harlow, 1958)就是个很好的例子。哈洛想要测试一种关于亲子依恋的假设:依恋的产生是由于母亲为婴儿提供食物。然而,问题是母亲提供的不仅仅是食物(还有舒适、温暧、爱抚以及刺激等)。哈洛创设了一种条件,在这种条件下只有一个变量与依恋有关——他让刚出生的短尾猴只能在“人造的”母亲之间选择,并测查了小猴子在这种条件下的行为。例如,他发现,小猴子喜欢厚绒布做成的“母亲”所提供的接触舒适感,甚于喜欢铁丝网做成的“母亲”。出生两周之后,小猴子更喜欢冰冷的厚绒布“母亲”,而不是温暧的铁丝“母亲”,这说明接触上的舒适感比温暧更吸引小猴子(Harlow & Suomi, 1970)。最后,哈洛还发现,即使当食物仅来自于铁丝“母亲”的时候,小猴子仍然更喜欢厚绒布母亲。因此,“依恋仅是由于母亲提供食物”的这种假设是错误的。正是因为哈洛能够对现实世界里同时发生的变量分开进行考察,才会有这样的发现。

  创设特殊条件来验证是否存在真正的因果关系,这种方法可以防止错误观念像病毒一样侵袭我们(Dawkin, 1993; Distin, 2005; Stanovich, 2004)。

  许多人不知道从步枪射出的子弹落地的时间与子弹垂直落到地面的时间是相同的。

  被试中很多人都对物体运动持有一种错误的观念,并且这些错误的观念与在牛顿之前三个世纪的理念不谋而合。麦克科劳斯基的当代被试和中世纪哲学家有共通之处:两组人在现实世界里都有很多有关物体运动的经验,但是没有人特意创设一种条件,进行科学的操纵、控制和比较。

  再多的个人经验也不足以阻止人们产生关于物理运动的错误概念。飞行员威廉·兰格威斯基在阐述关于飞行中转弯角度这一知识的发展史的时候指出,他发现飞行员在 20 世纪早期的时候拒绝使用陀螺仪这类装置,因为他们相信“平衡本能”。但是,这些“直觉”不能使飞行员在云中感觉出飞机旋转的角度。一些坠机事件和险些坠机的事件发生之后,飞行员终于清醒地认识到:没有什么直觉能够代替真实的飞行物理学知识(Langewiesche, 1993)。

  有关人类行为的许多常识是错误的,这不过是个小的例证而已。例如,没有证据显示有宗教信仰的人比没有宗教信仰的人更无私(Paloutzian, 1983; Smith, Wheeler, & Diener, 1975)。许多研究显示,笃信宗教的程度与参加慈善活动、帮助贫困的人或是不欺骗其他人这些行为之间没有直接关系。并且,在很多研究文献中,没有证据证明很虔诚的人比那些自认为是无神论者的人更慈善,或是更愿意帮助别人。

第 7 章 “但是这不是真实的生活!”——“人为性”批评和心理学

  如果一个研究中使用了随机分配的方法,那么它就是一项真实验,如果没有使用,那么它是一项相关调查。许多使用随机取样的研究没有使用随机分配,那是因为它们只是调查性研究,旨在寻找关联——也就是说,这些研究属于相关调查研究。然而,一些研究既使用了随机取样,又使用了随机分配,那么它们肯定是真实验。

  主要目的为理论验证的研究通常被称为“基础研究”。应用研究的目的是把数据直接应用于现实生活,但是基础研究则专注于理论验证。然而,仅仅根据某项研究是否有实践性应用来区分基础研究和应用研究,很可能会产生错误,因为这一差别常常会随着时间的增长而逐渐消失。应用研究的结果会很快得到应用。但是没有什么能比普遍的、准确的理论更具有实用性了。尽管很多科学家进行理论或实证研究的初衷并非解决具体的实践性问题,但他们发展出的科学理论或研究结果最终都解决了现实世界的许多问题。这样的例子在科学史上不胜枚举。

  比如威尔赫姆·伦琴(Wilhelm Roentgen)的故事,他“发现了一件奇妙的事情,当他把焚光屏放在他的仪器附近时,荧光屏就会意外地发光;结果发现了自然界的一个新现象,他称之为 X 射线。三个月之后,X 射线已经被人们用来检查骨折”(p.82)。再来看霍华德·弗洛瑞(Howard Florey),他和一个同事一起研究抗菌机制。“青霉素是他们所研究的微生物之一,这种微生物是几年前才偶然发现的,但它的抗菌功能一直没有被发现。现在的许多药物都是在一些对应用没有特别兴趣的学术研究发现的基础上研制出来的。”(p.82) 西莫尔·凯迪(Seymour Kety, 1974)也谈到了气丙嚷这一治疗精神分裂症的特效药物是如何在一些看似没有关联的科学研究中被发现的。凯迪强调,几乎所有应用于精神分裂症治疗方法的发现都与精神分裂症毫无关系!历史一再证明,(通过让科学家解决特殊的实践性问题而)试图控制科学发展方向只能阻碍发展进程而非促进。具有讽刺意味的是,急于让科学家们解决实际问题,而不让其考虑“其他事情”(基础研究)的做法,被证明是最不切实际和目光短浅的。

  正如先前提到的,认知心理学的研究成果通过了重复验证。信息加工的许多基本规律在全世界许多实验室中得到验证。人们可能不太知道,如果密歇根大学的一名心理学家获得一项重要的研究成果,那么类似的实验将很快在斯坦福大学、明尼苏达大学、俄亥俄州立大学、剑桥大学、耶鲁大学、多伦多大学等大学进行。通过这种检验,我们将很快知道这项结果是不是由于密歇根州被试的独特性或特殊的实验环境所造成的。

  “武器效应”——如果一件武器出现在手边,会使得某个人更容易做出攻击性反应。

第 8 章 避免爱因斯坦综合症——聚合性证据的重要性

  科学工作的不确定性是大部分公众所意识不到的。科学实验很少能完全确定某个问题,或支持某一理论从而排除其他理论。新的理论也很少能够全面超越所有先前存在的相互竞争的概念体系。很多问题的确定并不像科学电影里所描绘的那样,由一个关键实验所决定,而是要等到科学界逐渐开始有了共识,认为支持某种理论的证据比支持其他任何理论的证据要有力得多。科学家所评估的证据不是来自于某个设计得异常完美的实验的数据,与之相反,科学家往往需要去评估来自几十篇实验论文的数据,这些实验各有瑕疵,但都能提供部分答案。科学发展的这种渐进模式受到阻碍,正是因为爱因斯坦综合症在公众中造成了一种思维定势,认为所有科学都和物理学一样,因为对于物理学来说,科学进步的跃进模式或许是最适用的。

  科学总是遵循关联性原则,其特点在于众多个体的参与,而对这些个体的贡献进行评判的标准,是看它在多大程度上加深了我们对自然界的了解。没有哪个单独的个体能够依靠其特殊地位来主导讨论。当然,在第 1 章,我们已经讨论过科学的这种公共性,相比之下,伪科学经常认为特定的权威和研究者才有接近真理的“特殊”机会。

  我们曾提出过两个理念,能为理解心理学的规则提供一个有用的情境。首先,科学上没有哪个实验是被设计得完美无缺的,对任何一个实验数据的解释都存在着不确定性。科学家们评估一个理论,往往不是坐等一个完美的或者关键的实验的出现,而是对大量局部存在瑕庇的实验的总体趋势进行评估。第二,许多科学在即使没有爱因斯坦的情况下也取得了进步。这些进步是蹒跚而曲折的,而不是通过伟大的“爱因斯坦式整合”那样的阶梯式跃进。和心理学一样,其他许多科学也都是由那些原本缺乏共同主题的知识不断积累和拼接而成。

  从极端上讲,导致一个实验出错的方式有无数种(或用术语来说,就是变得混淆)。然而在大多数情况下往往不会有那么多干扰性的关键因素。在某个特定领域中拥有丰富经验的科学家,往往很清楚什么是最关键的因素。因此,当对某一研究结果进行审查时,科学家总能察觉实验中的关键瑕疵。接下来,聚合性证据原则提示我们去审查相关研究文献所呈现的瑕疵模式,因为这类模式要么支持、要么否定我们想要做出的结论。
  假设来自大量不同实验的结果都很一致地支持了某一特定结论。假如实验本身并不完善,我们应该继续去评估这些研究瑕疵的性质和程度。如果所有的实验都是以同样一种方式出现瑕疵,这些情况将会降低我们对实验结论的信心,因为结论的一致性也许仅仅源于一个特定的瑕赃,而这个瑕疵是所有实验共有的;另一方面,如果所有实验都呈现出不同的瑕疵,我们对结论的信心就会大增,因为结果的一致性看似并非源自某一个让所有实验结果都混淆不清的干扰性因素。正如安德森(1996)所言,“不同的方法很有可能涉及不同的假设,当一个假设能够通过众多基于不同假设的证伪检验时,我们可以说是得到了一个强有力的结论”(p.742)。
  每一个实验都有助于纠正其他实验在设计方面的错误,而其他实验反过来也检验它的瑕疵,使其获得支持。尽管各自多少都存在不同的缺点,并且实验技术也各有优劣,但只要大量的实验能够得到近似的结果,那么我们就可以说我们的实验证据实现聚合了。即使没有一个实验设计得十全十美,我们还是得到了一个相当有说服力的结果。因此,聚合性证据原则允许我们将结论建立在大量有些许差异的实验来源之上。这个原则之所以能让我们得出有说服力的结果,是因为这种方法所获得的结果的一致性不大可能是由某个实验程序的特殊性所造成的。

  聚合性证据原则能够让我们摒弃一个误区,这个误区的形成是由于我们在第 2 章对于证伪性的讨论过分简单化所造成的。当时的讨论似乎让人觉得,当第一个与自己的理论相抵触的证据出现时,这个理论就算是被证伪了。然而事实并非如此(Pigliucci,2002)。正如理论是被聚合性证据所支持一样,它也要被聚合性的研究结果所否定。

  心理学结论往往是建立在聚合性证据原则之上的。这个事实当然并不独特或罕见(在其他很多的科学中,结论也不是基于单一的、决定性的实验证据,而是基于众多结果不甚明晰的实验)。但这种情况在心理学中尤为突出,心理学实验的诊断性往往较低。也就是说,支持某一个理论的数据经常只能排除一小部分可能的解释,还遗留了许多有可能取代这种理论的“候补”理论。其结果是,只有收集并比较来自大量研究的数据之后,才能得到有说服力的结论。

  我们必须抵御这样的诱惑:当证据还不确凿时,就把某一假说当作已经证实了的理论来对待。本书连续几章都反复强调了这种怀疑态度。要注意不要从相关中推论因果,拒绝接受见证叙述式的证据。

  研究者拒绝这样的暗示,即承认某个特定研究存在瑕疵,就否定了“影视暴力会对攻击性行为产生影响”这一普遍的科学共识。其原因就在于,普遍的结论来源于聚合性。即使是不包含这类瑕疵的研究,其结果也会指向同一方向。这一研究当然也有其自身的问题,但其他研究对此进行修正之后也产生了相似的结论。

  加拿大心理学家提莫西·摩尔(Timothy Moore, 1996)认为,如果人们能更加普遍地意识到聚合性原则,那么在法庭上将会更好地利用专家证词。他特别讨论了依赖专家证词的问题。证词属于个人意见,难以代表该领域专家的共识。摩尔引述了在“犹大圣徒”(Judas Priest,美国七八十年代著名的重金属摇滚乐队——译者注)一案中的专家证词。这起案件涉及两个青少年的自杀,他们的父母控告摇滚乐队“犹大圣徒”在歌曲中传达的潜意识信息诱发了他们孩子的自杀。尽管专家证词指出,当时的科学共识是:没有任何证据显示那些潜意识信息能产生这种效果 (即使是现在,这一共识仍然成立),然而,在一个不能反映实证性共识的学者进行了一番言之凿凿的心理动力学解释之后,这个案子的法官多少还是受了些影响。摩尔总结说,这个学者误导了法庭,“他的观点虽然极富想象力和逻辑性,但与当时对于此问题的主流科学理解相悖。长长的履历和尊贵的职位并不足以保证其观点是科学有效的,单个专家的证词是独特的、个人化的,并且未经更广泛的科学团体的认定,这样的专家不足以引导整个法庭”(p.38)。

  对于某个特定问题的研究,通常是从相对较弱的方法过渡到可以做出较强结论的方法。例如,研究者对某个特定假设的兴趣,常常源于某个异常感兴趣的特殊个案。正如我们在第 4 章中讨论的,这就是个案研究的真正作用:为更有效力的进一步研究提供一些假设,同时激发科学家们用更为严格的方法去研究这些假设。个案研究之后,研究者多采用相关研究来确认变量之间是否存在真正的关联,而不仅是存在于几个个案中的巧合现象。如果相关研究证实了变量之间的关联,研究者就开始尝试采用实验法来对相关变量进行操纵,借以找到变量之间可能存在的因果关系。这个递进的顺序就是:从个案研究到相关研究,再到操纵变量。尽管并非每个研究领域都遵循这个渐进式途径(有时不同类型的研究同时进行),但这一向更有效方法迈进的进程的确是普遍发生的。

第 9 章 打破“神奇子弹”的神话——多重原因的问题

  人的行为是由多重原因共同决定的。

  任何一个特定行为都不是由某个单独的变量引起,而是由许多不同的变量共同决定的。认定变量 A 和行为 B 之间存在显著的因果关系,并不意味着变量 A 就是引起行为 B 的惟一因素。例如,有研究者发现,收看电视的时间和学业成绩之间存在相关,但不会就此认为收看电视时间是影响学业成绩的惟一因素。道理很简单,学业成绩在一定程度上还受到大量其他变量的影响(例如,家庭环境、学校教育的质量等等)。实际上,相对于这些变量,看电视只是影响学业成绩的一个次要因素而已。同样地,收看大量的电视暴力也不是使儿童表现出攻击行为的惟一原因,它只是众多影响因素中的一个。

  心理学家希尔多·瓦茨(Teodoire Wachs, 2000)以人们试图解释 1998 至 1999 年间发生在美国的校园枪击案的方式作为例子,指出,人们认为涉及的原因包括枪支容易获得、父母对孩子较低的关注、互联网、影视暴力、同伴影响和精神疾病。瓦茨认为,“很少有人觉得校园枪击案激增是上述原因共同作用的结果,任何解决方案都不应只针对某一个潜在的原因”

  具备原因多样性的观念非常重要。一方面,它提醒我们不要过于依赖单一的原因解释。因为这个世界盘根错节,影响行为的因素也多样而复杂。虽然我们可以证明某一变量引起了某一行为,但并不代表已经发现了影响该行为的惟一原因,甚至是最重要的原因。为了对某种特定行为做出全面的解释,研究者必须探讨各种不同的变量对它的影响,并把这些研究结果整合起来,才能完整地描绘出所有与该行为有关的因果关系。

  原因多样化的观点引出了另一个重要概念,那就是交互作用。

  在实验中,那些被单独分离出来的慢性压力并未增加精神疾病的风险……这些风险因素单独作用时,没有一项与儿童的精神疾病存在关联;这些儿童患精神疾病的风险也不会比没有家庭压力的儿童高。然而,当任何两种不同来源的压力同时作用时,患病的风险就超过原来的 4 倍。若是 3 种或 4 种压力来源同时作用,那么患病的风险更是增大了好几倍。很明显,这些慢性压力的共同作用远远超过其各自效果的累加,因为几种并发压力之间存在交互作用,才令其总体效应远远大于单个压力效应之和。

  考察行为的原因时,要依照多样性的原则来思考。不要陷入误区,认为某一特定行为只是由某一特殊原因造成。大部分复杂的行为都是由多重原因所决定的。各种各样的因素共同起作用才导致了某种行为出现。有时多个因素联合在一起时会产生交互作用。也就是说,变量共同作用时的整体效应,会和其单独作用时获得的效应完全不同。

第 10 章 人类认知的阿喀琉斯之踵——概率推理

  在自然界中很多关系的本质也是概率性的,例如:接近赤道的地区比较热;每家的孩子数目不超过 8 个;地球上大部分地区昆虫的数量比人类多。这些都是统计学可证明的趋势,但是它们当中的每一句话都不是绝对的,仍然可能会有例外。因为它们是概率的趋势和规律,而不是在所有情况下都成立的关系。

  很多定律和关系也是用概率而非必然性来表述的。例如,人口遗传学的所有子学科都基于概率关系;物理学家告诉我们,原子中电子负荷的分布也是通过概率函数来描述的。

  在心理学领域中,有一个已经被反复证实的发现,那就是一个具体事件的信息往往可以完全击败较为抽象的概率信息(第 4 章中讨论的“鲜活性”问题)。忽视概率信息的例子比比皆是,而且并不仅仅局限于缺乏科学知识的外行人。卡斯塞尔斯、谢诺博格和格瑞博维斯(Casscells, Schoenberger, & Graboys, 1978)在哈佛医学院的四所教学医院中进行了一项研究,他们向 20 位医学专业的学生、20 位内科主治医师和 20 位办公室工作人员提出下面一系列问题:“如果在每 1000 人中有 1 人携带艾滋病病毒(HIV),再假设有一种检查可以百分百地诊断出真正携带该病毒的人;最后,假设这个检查有 5% 的阳性误诊率。也就是说,这项检查在没有携带 HIV 的人中,也会错误地检测出有 5% 的人是病毒携带者。假设我们随便找一个人来进行这项检査,结果呈阳性反应,表明此人为 HIV 携带者。假定我们不知道这个人的患病史,那么他真的是 HIV 携带者的概率是多少呢?
  普遍的回答是 95%,正确的答案是约 2%。医生们过分高估了阳性结果表示患病的概率,因为他们一方面过分重视个案信息,另一方面又忽视了基础比率信息,从而过高地估计了阳性检测结果所真正代表的患病概率。稍稍进行逻辑推理就可以说明基础比率对概率的重要作用。1000 个人当中只有 1 人是真正的 HIV 阳性者。如果另外 999 人(不患病)也进行了此项检查,由于这一检查有 5% 的虚报率,他们当中将有接近 50 人(999 乘以 0.05)会被检查出携带这种病毒。这样一来,呈阳性反应的人就会是 51 个。因为在这 51 个人当中,只有 1 人是真正的 HIV 阳性者,此人确诊得病的概率其实只接近 2%。简而言之,基础比率就是绝大多数人没有携带这种病毒(病毒携带者只有千分之一)。这个事实和确定的虚报率综合考虑,就能使人确信,在绝对数量上,大部分呈阳性反应的人并不携带这种病毒。

  尽管参与卡斯塞尔斯等人研究的医生们很快就意识到了以上概率逻辑的正确性,但他们最初的直觉反应却是忽视基础比率,并过分看重临床检测的证据。简单来说,事实上医生们知道什么是对的,但却本能地做出了错误结论。心理学家把这类问题称为认知错觉(参见 Kahneman & Frederick, 2002,2005)。在认知错觉中,即使人们知道正确答案,他们也会由于问题的问法不同而做出错误的结论。

  我们这里提到的所有例子都是认知错觉,因为它们都利用了人类推理的误区:过分倚重个别事件所提供的证据而忽视了统计学的信息。对大多数人来讲,个案证据(实验室的研究结果)好像是摸得着的、具体的,而概率证据则好像是摸不着、不确定的。当然,这种理解是错误的,因为个案证据本身一定是概率性的。一项临床检验会以一定的概率对疾病做出误诊。上述情境就是一个例子,要想做出正确的决策,就必须结合考虑两种概率——对个案证据做出正确或错误诊断的概率(即 95% 或 5%)和过去经验所提供的先验概率(也叫基础比率)。

  在不同领域中进行证据评估时需要遵守的一条基本原则,就是认识到样本规模对信息可信度的影响,这对于理解行为科学的研究结果尤为重要。不管我们是否意识到,我们会对较大的群体持有一些普遍的看法。我们很少察觉到,我们最坚定的信念是建立在多么脆弱的事实基础之上。把对几个邻居和同事的观察,以及在电视新闻上看到的一些趣闻轶事放在一起,我们就迫不及待地要对“人性”或者“美国人”发表见解。

  请回答下面两个问题:
  问题 A:想象一下你在掷一枚普通的硬币(硬币出现正面和反面的概率各占 50%),已经连续出现了 5 次正面。对于第 6 次,你认为 ____ 出现反面的概率比正面要大 ____ 出现正面的概率比反面要大 ____ 正面和反面出现的概率一样大 问题 B:玩老虎机的时候,赢钱的机会是 1/10。茱丽头 3 次都赢了。她下次赢的几率是 ____ 分之 ____ 这两个问题是为了检测你是否容易出现所谓的赌徒谬误——即倾向于将过去事件和未来事件之间联系起来,而实际上两者是独立的。两个结果是相互独立的,一个事件的出现不会影响另一事件出现的概率。大多数机遇游戏都具备这种性质。例如,幸运轮盘的数字与之前的数字无关。轮盘数字一半是红的,另一半是黑色的(为简化起见,我们将忽略绿色的零和双零),所以对任意一次旋转来说,出现红色的概率均等(0.50)。然而在连续 5-6 次出现红色数字之后,许多投注者转投黑色,因为他们认为现在黑色更有可能出现。这就是赌徒谬误:明明是独立事件,却认为先前的结果会影响下一结果出现的概率。在这种情况下,投注者错在他们的信念。轮盘并不记得先前发生过什么。即使连续出现 15 个红色数字,红色数字在下轮出现的概率仍然是 0.50。

  重要的是我们要认识到,这一谬误不仅限于赌博游戏,它还存在于任何概率起着重要作用的地方。换句话说,它几乎存在于一切事情之中。婴儿的基因构成就是一个例子。心理学家、医生和婚姻顾问常常遇到一些已有两个女孩的夫妇,他们正计划要生第三个孩子,因为“我们想要个男孩,这回一定是个男孩”。这就是赌徒谬误,在生了两个女孩之后生男孩的概率(接近 50%)和生第一个孩子时完全一样。生了两个女孩不会增加第三个孩子是男孩的概率。

  赌徒谬误来源于对概率的诸多错误认识。其中一个错误认识就是,如果一个过程真正是随机的,就不可能出现重复同一结果或某种模式的序列,哪怕是一个不起眼的随机事件(例如,掷 6 次硬币)。人们习惯性地低估了重复(正正正正)或某种模式(正正反反正正反反正正反反)在一个随机序列中出现的可能性。正因为如此,人们在模拟一组真正的随机序列时,常常适得其反地产生出一个很少出现重复和某种模式的排列。这是因为,人们往往会错误地让可能的结果尽量轮流出现,以为这样才称得上是随机抽样,这无疑破坏了真正的随机排列中可能出现的结构(Nickerson, 2002; Towse & Neil, 1998)。

  和大多数学科一样,心理学研究所得出的是概率式的结论——大多数情况下会发生,但并非任何情况下都发生。虽然这些结论并非是 100% 准确的(就像其他科学中的情况一样),但根据心理学研究及理论所做出的预测仍然是有用的。

  当人们遇到具体的、具有鲜活性的证据时,就把概率信息抛到一边了。他们没有考虑到,较大的样本能够提供对于总体数值更为精确的估计。最后,人们表现出赌徒谬误(把原本无关的事件看成是有联系的)。赌徒谬误源于下一章将要讨论的一个更为普遍的倾向:未能认识到偶然性在决定结果时所起的作用。

第 11 章 偶然性在心理学中扮演的角色

  我们大脑的进化始终以这样一种方式,就是让我们能够不懈地寻求世界中的各种模式。我们寻求身边事物的关系、解释及其背后的意义。心理学家已经对这种强烈倾向进行了研究。这是人类智力的典型特征,而且能够解释人类在信息加工和知识获得过程中表现出来的令人惊叹的诸多能力。
  然而,人类认知过程的这种极具生存适应性有时也会反戈一击。例如,环境中没有什么可以进行概念化的东西,可我们还是还一味地去寻求概念性的理解,这就是一种不良适应。那么,到底是什么在人类认知这一最与众不同的方面制造麻烦呢?是什么打乱了我们对结构的寻求并阻碍了我们对事物的理解呢?你猜对了,是概率。说得更具体些,是偶然性和随机性。
  偶然性和随机性是我们周围环境不可分割的一部分。偶然性和随机性的规律支配着生物进化和基因重组的机制,物理学也运用关于偶然性的统计定律来解释物质的基本结构。自然界发生的很多事情,都是系统性以及可解释的因素与偶然因素共同作用的结果。再回想一下前面谈到的例子:吸烟导致肺癌。生物学上系统的、可解释的方面将吸烟和某一疾病联系起来,但这并不表示所有吸烟者都会患肺癌,这种趋势是概率性的。或许最终我们能解释为什么有些吸烟者不会患肺癌,但在现阶段,这种变异性必须归因于大量偶然性因素,是这些因素决定一个人是否患某一疾病。
  这个例子说明,当一件事取决于偶然性时,并不一定表示它是不确定的,只是说它目前是无法确定的。掷硬币是偶然事件,但并不是说在对抛掷的角度、硬币内的金属成分以及许多其他变量加以测量之后,也不可能确定其抛掷的结果。实际上,这些变量确实决定了掷硬币的结果。但是,我们称掷硬币为随机事件,是因为在每一次抛掷时,我们没有比较简易快捷的方法来测量这些变量。一次抛掷的结果并不是严格意义上的不确定,它只是在当下无法确定而已。

  形形色色的“预谋论”通常也需要一套又一套复杂的说辞去解释那些预谋论者拼命想要理解的、原本是由随机因素导致的事件。这一现象十分典型,甚至各类权威人士在其专业领域内的工作也往往如是。许多金融分析师的思维方式就体现了这一谬误。他们通常会对股票市场价格的每一次小的波动都编造出精细的解释,而实际上这种变化大多只是随机波动而已(Malldel, 2004; Taleb, 2001)。然而,股票市场分析师总是不断对客户暗示他们可以(也许他们也相信自己可以)“征服市场”,即使当大量的证据表明他们中的大部分其实是做不到这一点的。过去几十年中,如果你购买了标准普尔指数中的所有 500 种股票,然后放着不去管它(我们称之为“傻子策略”的办法——去买一种依照这一指数的互惠基金),那么今天你获得的回报会比 2/3 的华尔街股票经纪人为他们的顾客所赚的还要高(Egan, 2005; Hulbert, 2006; Malkiel, 2004; Updegrave, 1995),你的成绩也会打败 80% 订阅费已经涨至每年 500 美元的财经通讯杂志(Kim, 1994)。

  这个关于财经预测的例子的延伸,证明了原本纯粹随机的事件会因怎样的逻辑而看起来像是由可以预测的因素造成的(Fridson, 1993; Paolos, 1988)。假想你收到一封信,信中告诉你有这样一份关于股票市场预测的通讯。这个通讯并不收费,只是要求你试试照着他们的建议去买股票,然后看看它的预测灵不灵。它告诉你 IBM 的股票会在下个月攀升。你把这份通讯随手一扔,但是你确实注意到在下一个月里 IBM 股票果真涨了。如果你曾读过一本与本书的内容类似的书,你会觉得这是稀松平常的事情,仅会将其视为一次侥幸的猜中。后来你又收到另一份来自同一家投资咨询公司的通讯,该通讯说 IBM 股票会在下个月下跌,当股票确实跌了的时候,你仍将其视为侥幸,但是这一次你可能就有点儿好奇了。当这家公司寄来第三份通讯,预测 IBM 下个月会再次下跌时,你发现自己对这几页财经内容的关注度提高了。继而你发现该通讯又一次做出了准确预测,IBM 这个月确实又下跌了。当来自这家公司的第四份通讯说 IBM 下月会涨,而且也确实涨了时,你难免会觉得这个通讯真还挺神,而情不自禁地想花 29.95 美元去订一年这本如此有价值的通讯。这种诱惑难以抵挡,除非你能想象:此时在一个简陋的地下室里,某人正在准备下周要寄出的 1600 份通讯,这些通讯会按电话黄页上的 1600 个地址发出,其中 800 份预测 IBM 下月上涨,800 份预测下跌。当 IBM 在下个月真的涨了,公司就继续把通讯只发给上月接收到正确预测的 800 位“客户”(当然,其中还是 400 份预测涨,另外 400 份预测跌)。然后,你可以想象,这个“锅炉房”——可能还包括在背后煽风点火、辅助造势的电话营销骗子——正在向第二周接收到正确预测的 400 位客户发送第三个月的预测通讯(还是 200 份预测涨,200 份预测跌)。是的,你就是连续四次收到正确的随机预测信息的 100 个幸运儿之一!这 100 个“幸运儿”中的大多数会为了能继续收到通讯而支付 29.95 美元。
  现在看来这就像是一个玩弄众人于股掌之上的可怕骗局。实际也是如此。而当那些“受人尊敬”的财经杂志或电视节目给你推荐“连续四年击败一半以上对手的股票经纪人”时,情况也好不到哪儿去。请回想一下猴子掷飞镖的场景,设想这些猴子是年年选股的股票经纪人。很明显,第一年他们之中有 50% 会击败他们的对手。第二年,这 50% 的人中又有一半——按随机水平来说——会击败其对手,即 25% 的经纪人能连续两年击败他们的对手。之后第三年又有一半——随机水平——能击败对手,即总人数的 12.5% 连续三年击败对手。最终到第四年,又会有这些人的一半(总人数的 6.25%)能击败自己的对手。因此,100 只猴子中大概有 6 只能取得像财经节目和报纸所说的“连续四年击败了其他的经纪人”的骄人成绩。那么,这 6 只击败了一起扔飞镖的同伴的猴子(正如你所见,也击败了大多数现实生活中的华尔街经纪人;参见 Egan, 2005; Malkiel, 2004)的确有资格在电视节目“华尔街一周”中亮相,你觉得呢?

  解释偶然性:错觉相关和控制错觉 人们有解释偶然事件的倾向,这一现象在心理学的研究中称为错觉相关。当人们相信两类事件在通常情况下应该一起发生时,就会认为自己频繁地看到了同时发生的现象,甚至当这两类事件的同时出现是随机的,并不比任何其他两个事件同时发生的频率更高时也是如此。总之,即使是面对随机事件,人们也倾向于看到他们所期望的联系(Nisbett & Ross, 1980; Stanovich, 1999, 2004)。他们在原本没有规律的地方看到了规律。

  许多有控制的研究(如 King & Koehler, 2000;Stanovich & West, 1998)都证明,当人们头脑中已经预设了两个变量相互关联的想法时,他们甚至能够在两个变量根本毫无关系的数据中发现联系。

  心理学家埃伦·兰格(EllenLanger)研究了控制错觉这一现象,指的是人们有一种倾向,愿意相信个人能力可以影响偶然事件的结果。在一项研究中,两个不同公司的雇员向同事兜售彩票,一些人只是简单地塞到手里,而另一些人则可以自行抽取。当然,在随机抽奖的事件中,彩票是自行抽取的还是派发的没有什么区别,中奖率都是一样的。但是,第二天,当这两个雇员试图向这些同事买回彩票时,自行抽取彩票的被试对彩票的要价是被派发者的四倍!在另外几项实验研究中,兰格证实了这一假设,之所以出现这些结果,是因为人们不能接受个人因素无法影响偶然事件这一事实。这一错觉广泛存在的证据来自于美国各州发行彩票的经验。这些州充斥着教人们如何“征服”彩票的伪科学书籍。这类书之所以畅销,是因为人们不懂得随机性的含义。事实上,自从 20 世纪 70 年代中期新泽西州发明了一种新的彩票售卖方式之后,美国各州才爆发购买彩票的热潮。这种方式就是让购买者可以自行刮奖或自行挑选号码(Clotfelter & Cook, 1989; Thaler, 1992,p.138)。用这种售卖方式来进行的抽奖活动通常叫做“参与性抽彩”,而这类参与性抽彩正是利用了当时兰格研究的控制错觉现象:人们错误地相信他们的参与行为能够决定随机事件。

  还有一些心理学家则研究了另一个与此相关的现象,该现象被称为公平世界假设,它是指人们倾向于相信自己是生活在一个公平的世界里,在这里每个人都得到他们应得的东西(Hkfer & Begue, 2005)。研究者发现了一些实验证据,证明了公平世界中存在一种“罪有应得”的信念:人们会鄙视那些偶然不幸的受害者。为偶然事件寻求解释的倾向导致了这一现象。人们很难相信一个完美无瑕的或是道德修养高的人会因为偶然事件而惨遭不幸。固然我们想要相信好人有好报、恶人有恶报,但是,偶然性是不偏不倚的,它以完全不同的方式运行:好事坏事都以相同的概率发生在不同人身上。

  公平世界假设中所体现的对于偶然性的错误理解,也助长了其他一些错误的民间信念,导致人们容易看到虚假相关。例如,我们在第 6 章中提到过,“盲人有非常敏锐的听觉”就是一个错误的信念,这个错误信念可能会一直流传下去,因为这种联系能体现“老天很公平”,而这正是人们希望看到的。

  一个人的一生是由许多偶然因素决定的。

  巧合只是相关事件偶然地同时出现。不幸的是,许多人并不这样解释巧合。那些在事件中寻求模式和意义的倾向与巧合“不可思议的”的特性结合在一起,让许多人忘记他们可以用偶然这一因素来解释巧合,反而为理解这一现象寻求特别的解释。下面讲的这个故事你一定已经听过无数次了:“那天我正坐在那儿寻思,我好久没给德克萨斯州的老比尔叔叔打电话了,紧接着电话铃就响了,你猜怎么着!正是我那老比尔叔叔打来的。这种心灵感应的背后肯定有点儿什么原因!”这就是一个典型的为巧合事件编造解释的例子。每天,我们大多数人都可能想到很多或远或近的人,这些人在我们想起他们时,有多少人可能会打电话来呢?几乎没有可能。这样一年之内,我们可能想过数百个不曾打来电话的人。最终,在经历数百次这种我们不曾意识到的“错误尝试”之后,某个人在我们想他 / 她的时候正准备给我们打电话。这种事情难得一见,但难得一见的事情也会发生——纯粹是偶然。其他解释都是画蛇添足。
  如果人们真正理解了巧合的含义(一个偶然发生的令人不可思议的事件),他们就不会落入陷阱去寻求系统的、非偶然性的解释。但事实正相反,对很多人来说,巧合是需要偶然性以外的原因来解释的。例如,许多人都听到过这样的说法:“天哪!简直太巧了!我真想知道为什么!”为此,马科斯(Marks,2001)建议大家今后用罕见匹配这个比较中性的名词来形容令我们感到惊异的两个事件的同时出现。

  事实上,概率定律确保了随着事件发生次数的增加,一些罕见匹配出现的可能性会变得很大。这一定律不仅允许罕见匹配出现,而且从长远来看几乎保证了它的出现。请看马科斯(Marks,2001)的例子,如果一次掷 5 枚硬币,结果它们都是正面朝上,你将认为这是一个罕见匹配,一件不太可能的事情。是的,它发生的概率是 1/32 或 0.03。但是如果你将这 5 枚硬币掷 100 次,再问,在这 100 次中,至少有一次全部正面朝上的可能性是多少呢?答案是 0.96,就是说,100 次中,这一罕见匹配是极有可能发生的。

  若干年前,安·兰德炮制了一系列流传甚广的有关亚伯拉罕·林肯总统和约翰·肯尼迪总统之间令人“毛骨悚然”的巧合:
  1. 林肯于 1860 年当选总统;肯尼迪则于 1960 年当选。
  2. 林肯和肯尼迪都关注民权。
  3. 林肯和肯尼迪这两个名字都有 7 个字母。
  4. 林肯有一个秘书叫肯尼迪,肯尼迪也有一个秘书叫林肯。
  5. 两人都由叫约翰逊的南方人继任。
  6. 两人都被有三个名字的人暗杀(John Wilkes Booth 和 Lee Harvey Oswald)。
  7.Booth 和 Oswald 都持有不受人欢迎的政见。
  8.Booth 在剧院里射杀了林肯,然后藏在仓库里;Oswald 从仓库中射杀了肯尼迪,然后藏在剧院里。
  当然,作为巧合,这些事之间的联系一点也不令人毛骨悚然。德克萨斯大学的电脑程序师约翰·李维(John Leavy, 1992)曾经搞了一个“令人脊背发凉的总统巧合竞赛”来说明,实际上在任何两个总统之间找到像上述那样的一个清单是多么容易的事(见 Dudley, 1998)。例如,李维的文章中比较了威廉·亨利·哈里森和扎卡里·泰勒、波尔克和卡特、加菲尔德和麦金利、林肯和杰克逊、尼克松和杰斐逊、华盛顿和艾森豪威尔威尔、格兰特和尼克松、麦迪逊和威尔逊之间的相似之处。下面是加菲尔德和麦金利之间惊人的相似之处:
  1. 麦金利和加菲尔德都生长在俄亥俄州。
  2. 麦金利和加菲尔德都是美国内战的老兵。
  3. 麦金利和加菲尔德都在众议院任过职。
  4. 麦金利和加菲尔德为了保护美国工业,都支持金本位制和关税保护制。
  5. 麦金利和加菲尔德这两个名字都有 8 个字母。
  6. 麦金利和加菲尔德都被来自纽约市的副总统取代:西奥多·罗斯福和切斯特·亚伦·阿瑟。
  7. 罗斯福和阿瑟两人的名字都有 17 个字母。
  8. 两个副总统都蓄须。
  9. 麦金利和加菲尔德都在任期内第一年的 9 月被枪杀。
  10. 刺杀他们的凶手,查尔斯·基埃图和利昂·乔尔戈什听起来都不像美国人的名字。
  许多关于总统之间联系的清单都很相似。总之,考虑到一个人几十年的生命中人际交往和各类事件的复杂性,在这样一个包含成千上万个事件的样本空间里,任何两个人之间如果找不到什么相似之处才是让人感到奇怪的(Martin, 1998)。
  懂得在什么时候避免对纯粹随机因素导致的事件编造复杂的解释,这是具有实际作用的。作家艾图尔·嘉万迪曾描述了 1973 年赎罪日战争期间,认知心理学家卡尼曼和以色列空军打交道的事例。两个飞行中队出发并返航,一队损失了四架飞机,另一队则没有损失。军方希望卡尼曼调查一下,之所以有这样的差异,是否有特别的因素在起作用。卡尼曼并没有去做调查,他仅仅运用了本章所谈到的理念去告诉以色列空军不要浪费时间:“卡尼曼知道,如果空军官员真的去调查,他们将不可避免地在两个中队间发现一些可测量的差异,并且感觉非得做点什么”(Gawande, 1999, p.37)。但是卡尼曼知道,任何找到的因素都极有可能是虚假的——不过是纯粹的偶然性波动的结果而已。

  发生在我们个人生活中的罕见匹配往往对我们具有特殊的意义,我们尤其不愿将其归因为偶然。产生这种倾向的原因有很多,某些是动机性和情感性的,还有一些是概率推理的失败。我们通常不能意识到,罕见匹配只是巨大“概率事件”样本库中一个非常小的部分而已。对我们中的某些人来说,罕见匹配看起来好像经常发生,但是它真的经常发生吗?
  想想如果我们现在对你个人生活中的罕见匹配加以分析,会得到什么结果。假定某一天里你参与了 100 件不同的事情。考虑到现代工业社会中生活的复杂性,这个数字并没有高估,实际上可能还低估了。你看电视、打电话、与人面谈、讨论去工作或去商场的路线、做烦人的家务、看书获取信息、在上班时完成复杂的任务等等。所有这些事件都包含很多可单独记忆的成分。这样一算,100 件事其实真不算多,不过,我们就按 100 件事情来算。罕见匹配是指其中两个事件不可思议地联系在一起了。那么典型的一天中这 100 件事之间共有多少不同的、两两匹配的组合呢?用一个简单的公式就能算出结果,你通常一天有 4950 个不同的配对组合,而一年有 365 天。我们知道,罕见匹配是令人难忘的,比尔叔叔打来电话的那一天可能令你数年难忘。假如你把 10 年内所记得的所有罕见匹配数出来,也许也就 6 或 7 件(或多或少,人们对于小概率有不同的标准)。这 6、7 件事情来自于一个多大的概率事件样本库呢?每天 4950 个配对事件,乘以一年 365 天,再乘以 10 年,得到 18067500 个配对。总之,10 年中如果有 6 个你认为是罕见匹配的联系发生了,就有 18067494 个也可能是罕见匹配的其他配对事件发生了。所以,你的生活中的一个罕见匹配发生的概率是 0.00000033。有 6 个罕见匹配出现在 1800 万个事件中,的确很稀罕,但并不奇怪。罕见的事件确实发生了,它们也的确少见,但是,偶然性这一因素保证了它们一定会发生(回忆前面掷 5 枚硬币的例子)。在我们的例子中,6 件奇事发生在你身上,它们可能是巧合:两个相关事件由于偶然性的存在而不可思议地同时发生了。

  心理学家、统计学家以及其他科学家都指出,许多罕见匹配实际上并没有人们通常认为的那么“罕见”。著名的“生日问题”是最好的例子。在一个 23 人的班级里,有两个人生日是同一天的概率是多少?大多数人会认为非常低。而实际上,23 人的班级中,两人同一天过生曰的可能性大于 50%。而在 35 人的班级,可能性就更大了(概率大于 0.80,见 Martin, 1998)。所以,因为美国历史上有 43 位总统,因此詹姆斯·波尔克和沃伦·哈丁两位在同一天出生(11 月 2 日)也就不足为奇了。同样地,有 38 位总统都已过世,其中米勒德·菲尔莫尔和威廉·塔夫脱死于同一天(3 月 8 日)也不应令人感到惊讶,甚至还有另外 3 位总统——约翰·亚当斯、托马斯·杰菲逊、詹姆斯·门罗——都死于同一天,而这一天竟然是 7 月 4 日,美国独立日!后面这个神奇吗?其实不过是概率使然罢了。

  对临床预测与统计预测的比较研究所得到的结果始终是一致的。自从保罗·米尔(PaulMeehl)的经典著作《临床预测与统计预测》(Clinica! Versus Statistical Prediction)于 1954 年出版以来,40 年间有超过 100 个研究表明,在几乎每一个曾经验证过的临床预测领域(精神治疗的效果、假释行为、大学生毕业比例、电击治疗的反应、累犯问题、精神病住院治疗期的长短等等),统计预测都优于临床预测(Dawes,Faust, & Meehl, 1989; Faust, Hart, Guilmette, & Arkes, 1988; Goldberg, 1959, 1968, 1991; Ruscio, 2002; Swetsetal., 2000; Tetlock, 2005)。
  在多个临床领域中,研究者给临床心理医生一份病人的信息,让其预测这个病人的行为。与此同时,他们也把同样的信息加以量化,用一个统计方程加以分析,这一方程是以先前研究发现的统计关系为基础编制的。结果都是统计方程大获全胜。这就表明,统计预测比临床预测更为准确。事实上,即使是在临床心理医生可以获得比统计方法更多的资料的情况下,后者仍然比前者的预测更准确。也就是说,临床心理医生除了拥有与统计预测一样的量化资料以外,还拥有与病人单独接触和访谈所得到的资料,但是这并没有令其预测变得像统计预测那样准确。“即使拥有信息优势,临床判断仍然不能超越统计方法;实际上,拥有更多的信息,并不能弥补两种方法之间的差距”(Dawes et al., 1989, p.1670)。产生这种结果的原因当然是统计方程将各种信息数据按照优化标准整合起来,并且做得准确而稳定。优化和稳定这两个因素就让临床心理医生通过非正式方法收集到的资料和信息的优势消失殆尽。

  对于研究显示统计预测优于临床预测的优势,米尔(Meehl, 1986)曾说:“社会科学中,没有任何一个争议能如这次这般,从这么大量的、性质上如此多样的研究中得到如此一致的结论。”(pp.373-374)。但令人尴尬的是,心理学领域并没有应用这一知识。例如,这个学科在研究生入学与心理健康培训招生等程序中仍然不停地使用个人面试,尽管大量征据表明,面试方法缺乏效度。临床工作者也继续利用一些似是而非的证据来证明他们对于“临床直觉”的依赖是合理的,而不依靠更有效的总体性预测。例如,道斯等(Dawesetal, 1989)曾指出:
  一种普遍的反统计论调或误区在于,认为群体统计不适用单个人或事。这种观点是对概率基本原则的误用……要保持逻辑上的一致,反统计论的鼓吹者就必须相信并承认,如果一个人被迫玩一次俄罗斯轮盘赌,允许他选择膛内装有 1 发或 5 发子弹。事件的单一性使得选哪把枪都无所谓(p.1672)。

  然而,正如麦佛和瑞特(Mc Fall & Treat,1999)在一篇论述临床评估价值的文章所提醒的那样:“我们试图评估和预测的事情在本质上是概率性的。这意味着我们不能期望大自然会如此听话,能让我们以百分百的把握去预测单一事件。相反,我们最高的期望也只能是鉴别一系列可能的结果,然后去估计每个结果出现的相对可能性。从这种概率的角度看,传统临床评估期望达到的那种理想化目标——对独特的未来事件做出精确的预测——其实太天真了,反映了我们的无知或自大,或二者兼有”(p.217)。

  如果我们将“接受错误以减少错误”变为一种习惯,心理学和整个社会都将从中受益。在试图对每一个不同寻常的事件做出独特解释时(就我们目前的知识情况来说,独特的解释也许根本不可能),我们常常丧失了对更多平常事件的预测能力。请大家再次回想一下红灯-蓝灯实验,诚然,“百分百红灯策略”会对出现概率较小或很少出现的不寻常事件(蓝灯亮)做出错误的预测,但如果我们把注意力放在出现概率较小的事件上,采用“70% 红灯、30% 蓝灯策略”,结果会怎样呢?我们会在 30 个不寻常事件中正确预测 9 次(30x0.3), 其代价是丧失了对 21 个常见事件做出正确预测的机会,没有对红灯做出 70 次的正确预测,只获得 49 次的正确预测(70x0.70)。临床领域中的行为预测也遵循相同的逻辑,为每一个案编造复杂的解释,确实可能抓住一小部分不寻常事件——旦这是以损失了对大多数事件的正确预测为代价的,而在此方面,简单的统计预测则更有效。加望德(Gawande, 1998)指出,医学领域也同样需要学习“接受错误以减少错误”这个道理。他认为在医学里,强调直觉、个别化的治疗方法“是有缺陷的——我们试图承认并考虑人类复杂性的因素,但这非但没有避免错误,反倒招致了更多的错误”(p.80)。

  华格纳和科瑞(Wagenaar & Keren, 1986)论证了对个人知识的过分自信以及对统计信息的忽视,会破坏“系安全带驾车”的交通安全推广活动的效果。因为人们总是认为:“我和别人不一样,我驾车很安全”。问题是 85% 的人都认为“自己的技术比一般驾车者高明”(Svenson, 1981)——这显然是很荒谬的。
  “统计数据不适用于单一个案”这一同样的谬误,是导致赌徒积习难改的重要因素。

  这里有关临床-统计预测研究文献的讨论,并不意味着个案研究在心理学中毫无价值。请大家记住,这一章所谈的只是“对行为的预测”这一特定情境。回想一下在第 4 章中对于个案研究价值的讨论,个案信息在引发对重要的、需要进一步研究的变量的关注方面是非常有用的。而这一章中所说的则是,一旦相关的变量已经确定,我们要开始运用它们来预测行为时,测量这些变量并使用统计公式来进行预测始终是最优程序。首先,我们通过统计方法得到了更为准确的预测;其次,统计方式优于临床预测之处在于,统计程序所得出的预测是公共知识,任何人都可以使用、修改、批评或争论。相反,如果使用临床预测就等于要依靠个别权威的评估——由于这类判断太过个别和特殊——因此不能接受公众的评议。正如道斯(Dawes, 1994)所述

  偶然性在心理学中扮演的角色时常被外行人士和临床心理从业者所误解。人们很难认识到,行为事件结果的变化中有一部分是由偶然因素造成的。也就是说,行为的变化有一部分是随机因素作用的结果,因此心理学家不应自诩能够预测每一例个案的行为。心理学的预测应该是概率性的——是对总体趋势的概率性预测。
  表示自己可以在个体层次上进行心理预测,是临床心理学家常犯的错误。他们有时候会错误地暗示别人,临床训练赋予了他们一种对个别案例做出准确预测的“直觉”能力。恰恰相反,几十年来,有价值的研究都一致表明:在解释人类行为的原因方面,统计预测(基于群体统计趋势的预测)远远优于临床预测。目前还没有证据表明,临床直觉能预测一个统计趋势是否会在一个特定的个案身上出现。因此,当对行为进行预测时,千万不要对统计资料置之不理。统计预测也昭示,当对人类的行为进行预测时,错误和不确定性将始终存在。

第 12 章 不招人待见的心理学

  心理科学并不认为几个个案研究、见证叙述和个人经验就能构成支持某种疗法有效性的充分的实证证据——而这些却恰恰是大多数自助类“疗法”安身立命的根本。

  菜谱式知识是指那些只告诉你如何去使用某物,但对其基本的运作原理一概不谈的知识。例如,大多数人知道如何使用电话,他们知道如何拨号,如何获得信息,如何打长途等等。但许多人对电话操作背后的物理原理一无所知。他们不知道电话的通话功能是如何实现的,他们只是会用。这就是电话的菜谱式知识。在我们的社会里,许多有关科技产品的知识都是菜谱式知识。
  当然,这也不完全是一件坏事。事实上,多数技术产品的设计初衷,就是为了让那些对其背后的运作原理一无所知的用户也能使用。事实上,菜谱式知识这一概念提供了一种方法,可以概括基础研究和应用研究之间的区别。基础研究工作者寻找自然界的基本原理,而不去考虑这些原理能否转化为菜谱式知识。应用研究工作者则致力于将基本原理转化成一个个只需菜谱式知识就能使用的产品。
  多数自助类读物只提供关于人类行为的菜谱式知识,它通常能够简化为这样的形式,“你只要做 X,你就会变得更加 Y 了”,或者“做 Z,某 A 就会表现出更多的 B”。当然,如果这个药方是正确的(这一假设往往并不全然成立),这么做也不为过。许多正规的心理治疗都提供了大量菜谱式知识。

  在 20 世纪 70 年代末,法院判决了几起有关标准测验的诉讼案。其中的一起是 PASE 起诉汉农的案子,涉及智力测验中的文化偏见问题。审理该案的法官认为,能够帮助他裁定的惟一方法,就是由他来亲自检查每一道测验题,并且相信他自己的直觉。他对自己能做出正确判决的能力深信不疑,并对测验的每个问题写下自己的个人看法(BersofF, 1981, 1982)。这位法官断定,在这些标准测验中,一组测验中的八个题目和另一组测验中的一个题目可能是带有偏见的。这个法官没有意识到,像这样的问题其实是可以通过科学方法来检验的实证性问题。个人意见不仅与真相无关,甚至可能是极具误导性的。决定这些标准测验题目是否带有偏见,需要复杂的统计程序和收集大量的数据。心理学家已经并继续为评估和收集必要数据及发展相应的统计技术方面做出了突出的贡献。

  颇具讽刺意味的是,研究实际发现,对于哪些题目存在文化偏见的问题,外行人的直觉判断通常都是错误的。许多被认为没有偏见的题目实际上却存在着多种偏见,而许多表面上看来不公正的题目却没有发现统计意义上的偏见(Sandoval & Miille, 1980)。举个例子来说,韦氏成人智力量表在加拿大受到批评,因为其中某一分量表(“信息”分量表)中的一些题目似乎有偏袒美国公民之嫌。例如,其中有一个题目要求被试写出 1950 年之后美国四位总统的名字。因此,当这个测验在加拿大使用时,一些题目就被“加拿大化”了(Violato, 1984, 1986)。例如,那道“总统”的题目被改为 “1900 年之后加拿大四位总理的名字”。然而,就算是这样一个显而易见的、“常识性”的改变也产生了一个小问题:加拿大公民在“总统版本”的智力测验得分比在“总理版本”中的得分要高。

  一个受过良好训练的心理学家应当知道,我们有把握对总体的行为做出预测,但是在预测某个特定个人的行为时,就存在很大的不确定性(见第 10 章和第 11 章),因此,即便是最有能力的心理学家,也不应该在没有强调这点的情况下去做任何个人预测。

  心理学领域依然在遭受不端行为的践踏。例如,“紧急事件应激晤谈”在许多场合被作为标准化的程序,用于治疗那些经历了爆炸、枪击、战争、恐怖主义和地震的患者(Groopman, 2004; Mc Nally, Bryant, & Ehlers, 2003)。晤谈程序包括让患者“谈论事件并公开表达他们的情绪,尤其是当着也经历了同样事件的公司同事的面”(Mc Nally et al., 2003, p.56),其目的是为了减少创伤后应激障碍(PTSD)的发生。大多数经过晤谈的病人都报告说这种体验是有帮助的。当然,看过此书的人都不会认为其依据具有说服力(想想第 4 章中关于“安慰剂”效应的讨论)。显然,需要有一个控制组(一些没有接受紧急事件应激晤谈的患者)。事实上,“许多创伤幸存者都在没有专业帮助的情况下从最初的创伤后反应中恢复了过来”(Mc Nally et al., 2003, p.45),因此需要证明,重大事件应激叙事的使用确实带来了更高的恢复率。虽然真正的控制实验所揭示的结果并非如此(Groopman, 2004; Mc Nally et al., 2003),但这一疗法还在被继续使用。

  心理学呈现给公众的印象却是很多临床治疗师宣称自己具有“独特的”洞察人心的能力——但这种洞察力在研究证据方面是站不住脚的,

  许多人的个体心理学和科学心理学一样,也想探究更为基本的心理学规律和理论,然而这些个人理论和科学理论存在着重大的分歧。我们曾经提到过,这些个人化理论是无法证伪的。许多人的个人心理学理论缺乏缜密的建构,只是一些适用于个别情形的陈词滥调的简单堆砌,有时这些话还会自相矛盾。它们向人们保证,存在一个确定的解释,而那些与之完全对立、会彻底动摇人们信念的事件都是不可能发生的。尽管这些理论极具慰藉功能,但正如第 2 章中所讨论的,除了慰藉之外,以这种方式提出的理论再无别的功能。这些理论都以“事后诸葛亮”的方式解释一切,对未来没有任何的预测。没有预测,也就没有给我们提供任何信息。心理学科的理论必须符合可证伪的标准,这就是心理科学与许多外行人的个人心理学的不同之处。

  许多宗教都已经逐渐不再声称他们对宇宙结构具有专门的知识。除了一些局部性的争议——如特创论——科学与宗教之间的大型战争已经成为历史。科学家们探究自然世界的结构,而许多宗教则对运用这些发现时可能带来的影响做出评论,但宗教已经不再与科学争夺对于这些发现的解释权了,对有关自然界的主张的裁定权,无疑已经掌握在科学家手中。

  心理学是科学中最后一个面临这种微妙局面的学科。这与心理学产生的时间有关。大多数学科成熟于精英控制社会结构的年代,那个时候,普通人的意见没有影响力。而心理学则产生于一个民主的传媒时代,忽视公众意见会危及自身。许多心理学家正在努力修复心理学与公众在沟通方面的糟糕记录。当越来越多的心理学家开始在与公众的沟通中发挥作用时,势必会加剧他们与那帮将个人心理学和科学心理学混为一谈人的冲突。

结束语

  1. 心理学的进步是通过研究可解的实证问题而取得的。这种进步是不均衡的,因为心理学由许多不同的子领域构成,某些领域的问题要比其他领域具有更高的难度。
  2. 心理学家提出可证伪的理论来释他们的研究发现。
  3. 理论中的概念都具有操作性定义,这些定义将随着证据的积累而逐渐演变。
  4. 这些理论是通过系统实证的方法来检验的,用这种方法收集来的数据是公开的,也就是说,它允许其他科学家重复这些实验并提出批评。
  5. 心理学家的数据和理论,只有在那些经过同行评审程序的科学刊物上发表之后,才算是进入了科学领域。
  6. 实证主义之所以具有系统性,是因为它遵循控制和操纵的逻辑,这二者也是真实验的特性。
  7. 心理学家采用许多不同的方法来获得他们的结论,这些方法的优缺点各有不同。
  8. 在许多情况下,只有经过许多实验数据的缓慢积累才能得出结论。
  9. 最终被揭示的行为规律,通常情况下都是一种概率关系。