— 供 稿 人:James St. James,米利金大学

虽然许多使用 E-Prime 的人都非常熟悉研究的复杂性,但许多人并不熟悉,或者刚刚开始学习。在本文中,我们简要概述了实验研究,包括对一些基本术语和想法的回顾。本文档的目的不是作为 E-Prime 使用指南的介绍。相反,它的目的是帮助 E-Prime 的用户进行实验的概念开发,并考虑有关心理学实验的许多广泛问题。如果您觉得自己非常熟悉与心理学研究相关的研究方法,请随时跳过本文。本文对于那些需要研究方法的 “进修课程 ”的人来说特别有用。

实验设计注意事项
我们首先考虑研究设计的一些基本原则。然后,我们考虑了单次试验反应时间范式的许多细节,这是当前许多心理学研究的基础。跳过任何涵盖熟悉材料的部分。我们在下面包含的部分内容对某些人来说似乎太明显了,但我们希望能帮助使用 E-Prime 的人,他们将从基本术语的提醒中受益,或者刚刚开始学习进行研究的人。我们在这里的重点是实验研究,我们的例子就在那里,但观察和相关性研究需要考虑许多相同的观点。

因为下面的内容不是一本完整的研究方法教科书,所以引用的参考文献主要是一般来源。鼓励读者访问这些来源以获得更完整的报道和主要参考资料。有许多心理学研究方法的教科书,可以更详细地讨论下面的一般主题。大多数不包括特定于单次试验反应时间程序的注意事项,我们对此进行了详细说明。

定义
由于它们在我们的讨论中被广泛使用,因此我们首先定义因变量和自变量和控制。

因变量和自变量
在使用 E-Prime 设计和设置实验时,必须命名自变量和因变量。因变量 (DV) 是结果的度量,例如反应时间和准确性。自变量 (IV) 是由实验者操纵的实验方面。请注意,在实验中,假设结果度量的值
取决于或由参与者接受测试的条件(自变量的水平)引起。因此,它是一个因变量。

自变量具有两个或多个水平,用于定义测试参与者的条件。例如刺激的类型、刺激的时间或将要操纵的实验的任何其他方面。可以通过将参与者随机分配到条件(IV 水平)或以随机或平衡顺序将每个条件应用于每个参与者来操纵自变量。在讨论实验的统计分析时,自变量有时也称为因子。具有多个 IV 的试验称为使用因子设计。

控制
混杂变量是实验情况中与实验旨在研究的 IV 相关的方面,并且可能会在不同级别的 IV 之间产生(或隐藏)差异。一个例子可能会有所帮助。假设研究人员希望比较两种教授基本统计的方法。她教授课程的两个部分,因此决定用方法 A 教她上午 8:00 的课程,用方法 B 教她上午 10:00 的课程。假设她发现用方法 B 学习的学生在普通期末考试中的平均分数明显高于用方法 A 教授的学生。她能得出方法 B 更好的结论吗?几乎不。也许学生在 8:00 的课程中不如在 10:00 的课程中警觉。但是,假设她发现期末考试的班级之间没有差异。她能得出结论说教学方法无关紧要吗?同样,几乎不可能。在这种情况下,也许方法 A 实际上更胜一筹,但 8:00 的班级只是半睡半醒,他们做得和方法 B 教的人一样好的唯一原因是方法 A 足够好,可以克服注意力不集中的问题。在这个例子中,一天中的时间与教学方法混淆了。(将教学方法与一天中的时间混为一谈并不是这种设计的唯一问题。缺乏学生随机分配到班级也是一个问题。

控制包括试验中旨在消除混杂变量影响的任何方面。控制通常用于消除由混杂引起的可变性,方法是使它们成为常量,而不是变量。在上面的例子中,这将涉及控制一天中教授课程的时间。另一个例子:在涉及视觉显示的研究中,要注意刺激的有效大小,如果不同的参与者坐在与计算机显示器的不同距离上,它会有所不同。在这种情况下,相关的控制方法是使用遮光罩或下巴托,使所有参与者与屏幕的距离相同。第三个例子是:如果怀疑表现可能存在性别差异,请确保在自变量的每个水平上测试的参与者组中男性和女性人数相等。通过男性和女性数量相等,性别对 IV 的每个水平的任何影响都是相同的,并且两个水平的平均表现的任何差异都不会是由于一组中男性更多或另一组中女性更多。

请注意,在为 IV 的每个水平分配相同数量的男性和女性的情况下,性别实际上已被添加为阻塞变量。如果在数据文件中记录参与者的性别,则稍后分别分析男性和女性的数据,以明确检查性别差异。块变量应始终作为 “自变量” 包含在数据文件中。在阻塞变量上匹配组的一个优点是,它用于控制该混淆并允许检查其影响。

顺序效应是一类重要的混杂因素,尤其是在每个参与者都在 IV 的每个水平上服务的实验中。在这里,体验 IV 的一个级别可能会改变另一个级别的表现。例如,当一种条件的经验提供了提高另一种条件下表现的实践时,或者当第一个条件的经验诱发了影响另一种条件表现的策略时。有两种常规解决方案可用:平衡和随机化。完全平衡保证每个条件都同样频繁地先于或之后于其他条件。(对于具有多个 IV 水平的实验设计,由于所需的参与者数量,通常不可能完全平衡。在这种情况下,拉丁方设计可以近似于完全平衡。另一种方法是随机化每个参与者的实验条件的呈现顺序。在相当多的参与者中,这将近似于平衡。请注意,通过平衡或随机化,在数据文件中记录条件的顺序将允许以后明确比较接受不同实验条件顺序的参与者的表现。1


开始之前
在开始设计实验之前,请仔细考虑试图回答的更广泛的研究问题。虽然使用带有 E-Prime 等软件的计算机可以更轻松地进行实验,但支付参与者费用、及时测试参与者和分析数据仍然涉及大量成本。因此,花在仔细的理论考虑上的时间 “预先” 将避免浪费精力,并增加获得可解释和可发布结果的机会。在本节中,我们考虑了在实验设计的详细过程之前和期间需要解决的许多问题。

需要回答的问题有哪些?
在开始设计实验之前,请清楚地表述要回答的问题。指定一个假设,或关于自变量对因变量的预期影响的陈述(例如,随着侧翼字母远离目标字母,反应时间将减少)。该假设可能来自明确的理论,可能代表先前研究的延伸,或者可能来自个人观察。在探索性研究中,问题可能涉及现象的性质–现象(例如,视觉错觉)发生的条件是什么?在这里,关注的不是检验一个理论,而是描述一个现象。在验证性研究中,研究问题涉及对关于现象本质的理论的明确测试。如果实验结果被理论提前预测,那往往会证实理论。然而,如果实验结果与理论的预测相矛盾,则表明该理论至少是不完整的,并且可能是不正确的。(对理论的证实和证伪的深入讨论远远超出了本文的范围。参见Elmes, Kantowitz, & Roediger, 1992。

如何回答研究问题?
无论研究是探索性的还是验证性的,要回答的问题都必须尽可能具体,这样才能明确什么可以算作证据。重要的是,这些问题的提出方式是可以设计出某种可以回答这些问题的实验任务。比较是任何科学问题的核心–预计因变量实际上会随着自变量水平的变化而变化。在验证性研究中,至少对 DV 随着 IV 变化而差异的方向(可能是程度)有一个具体的预测。例如,一种理论可能预测 RT 会随着某些 IV 强度的变化而增加。在探索性研究中,没有关于 DV 将如何变化的精确预测,但预计所研究的 IV 的变化将导致 DV 的变化。如果他们没有,则没有进行太多的探索。

如何分析数据?
实验和数据分析应共同设计。在收集数据之前了解数据分析的方法非常重要。有几个原因。由于研究的重点是比较不同 IV 水平的 DV,因此应该提前清楚将进行比较的内容以及如何进行统计比较。这可以避免以后出现令人讨厌的意外,例如发现没有记录关键变量,或者(更糟糕的是)没有合适的统计测试可用。下面对单试验 RT 数据的统计分析进行了一些额外的讨论。

在收集数据之前,绘制数据图表很有用,以明确哪些 RT 模式会支持或否定假设。如果对 IV 的影响有其他可能的假设,也请绘制这些假设。这样的图表将有助于阐明预测。绘制预期均值以及预期标准误差线(可能来自试点测试)可以很好地了解预期会看到什么,以及哪些差异可能是显著的。根据经验,两个标准误差的均值之间的差异可能很大。统计功效分析也很有用,有助于根据预期差异的大小、数据的变异性和样本量来判断在均值之间获得统计显著性差异的可能性。


实验任务将如何呈现?
对相关文献的仔细回顾是任何研究的自然起点,通常侧重于以前的理论和实证发展。然而,回顾使用类似任务的实验的方法部分也可能是有益的。这样的审查可能会提醒人们没有想到的考虑因素,从而节省大量的试点测试。如果有使用类似任务的文献或研究,则可能值得与作者讨论设计并利用任何未包含在 Methods 正式报告中的见解。

在实验的详细设计和对实验产生的数据的分析中,需要考虑许多因素。虽然有些是特定于受限研究领域的,但有些则更通用。下面对单次试验、反应时间研究的细节的讨论强调了其中的许多考虑因素。

实施计算机化实验
一旦您彻底考虑了要回答的问题以及您打算如何回答它,您就可以开始设计实验了。不要急于完成前一个规划阶段。在尝试设计或实施实验之前,做好充分准备至关重要。

构建实验
由内而外(或自下而上)工作。构建实验的最佳方法是在输入完整的刺激列表和说明之前进行一些试验。我们建议将指令屏幕留空并指定一个最小的刺激列表;通常单个 IV 的每个水平 1 个就足够了。一旦确定基本试验正在运行并且数据已正确存储,请添加其他 IV、其他刺激、说明和其他详细信息。在设置实验时,很明显需要在刺激列表中指定更多变量。回到一长串试验并将其添加到每个试验中可能会令人沮丧。对每种类型的一些试验进行全面测试通常会发现此类错误,而这些错误很容易纠正。例如,假设您必须键入 200 个单词作为刺激,并按频率和长度指定每个单词。如果您随后决定将具体性添加为附加 IV,则必须为 200 个单词中的每个单词输入具体性评级。但是,如果您首先仅使用四个单词测试实验,并发现需要额外的 IV,则只需固定四个水平。

中试测试
设置实验后,执行几个级别的试点测试。第一个级别是独自坐下完成整个实验。您可能会注意到以前没有发现的错误,或者意识到实验时间太长,应该在多个会话中运行。不要指望参与者接受您不愿意自己坐下来的实验程序。如果其他人根据您的规范设置实验,这一点尤其重要。正如冷战时期的军备控制谈判代表常说的那样,“信任,但要验证”。第二阶段的中试应该是让两到三个人完成实验。这些人应该是实验室助理、同事或可能发现潜在问题的其他人。特别是如果使用学生作为试点参与者,让他们知道报告任何看似问题的事情都是必要的。

收集试点数据后,执行完整的数据分析。尽管不太可能有这么少的参与者给出 “显著性” 所需的统计功效,但您可以确信相关变量已记录并且您知道如何进行分析。分析的一个重要方面是知道如何为用于分析的程序构建数据。请注意,大多数统计程序将读取制表符、逗号或空格分隔的 ASCII(或 DOS)文件,该文件应将每个参与者的数据放在一行上。在反应时间研究中,通常使用每种情况的平均 RT 作为分析数据,而不是单次试验数据。这可以使用 E-Prime 中 E-DataAid 应用程序的分析功能生成。


正式数据收集
一旦开始对实际研究参与者进行正式数据收集,最好在前几名参与者完成实验后进行相当广泛的汇报。检查他们是否理解了说明。询问他们是否注意到任何看起来不寻常的事情,并询问他们可能采用的策略。参与者有时会在实验中读出实验者从未想过的各种需求特征。不要假设参与者会讲述实验中困扰或困惑的方面。因此,明确询问是否似乎有什么 “错误”。另请注意,可能担任试点参与者的同事或实验室助理带来了特殊的专业知识,因此他们可能会发现天真的参与者不会发现的问题。但是,出于同样的原因,他们也可能忽略了说明和程序中的问题,这些问题会困扰天真的参与者。

在前几个参与者完成实验时,还要查看单个参与者和平均数据。寻找极端的可变性。在单试验反应时间范式中,查看按试验类型、标准差和错误率划分的平均 RT 表。极端标准差或错误率可能表明特定试验类型没有按预期呈现,或者受试者没有按照说明建议做出反应。

让参与者熟悉情况
特别是对于计算机化实验,有时需要花时间确保参与者感到舒适,因为他们需要在不受周围环境干扰的情况下完成实验任务。许多研究人员依赖本科生作为参与者,并且可以假设他们熟悉计算机。然而,在老年人群中,参与者可能不熟悉计算机。在对精神病患者的研究中,奇怪的情况可能会显着改变参与者理解和专注于实验任务的能力。仅仅为了克服新的、陌生的环境的威胁而进行一次练习可能是非常值得的。对儿童进行研究会带来其他问题,例如理解指令。在其中一些情况下,使用仅包含几个键的响应框可能会有所帮助,因为它可以减少具有 100+ 键的计算机键盘固有的干扰。

如果数据收集将在用于设置实验的计算机以外的计算机上进行,请确保在用于最终实验的计算机上完成试点测试。可能出现的问题包括显示大小的差异,以及切换到其他图形适配器的问题。

数据收集将在哪里进行?
事先考虑一下数据收集的设置。大多数情况下,这是在实验室环境中一次由一名参与者完成的。但是,有时数据收集可能在医院或诊所或其他环境中进行。

关于实验室位置的考虑因素包括:

1) 限制外部噪音和干扰。如果必须在嘈杂的环境中进行测试,则使用通过扬声器或耳机播放的白噪声发生器来阻挡大多数外来声音可能会有所帮助。如果同时测试多个参与者,则使用隔板或单独的隔间会有所帮助,因为这会阻止参与者之间聊天。

2) 照明控制。计算机显示器上的眩光有时是一个问题,尤其是在光线相对昏暗的房间里。当使用简短、数据受限的显示器时,这可能是一个主要问题。调整显示器的位置以消除眩光。此外,调整亮度和对比度,使显示清晰锐利。请注意,当灯光变暗时,在明亮的房间中看到的显示器可能看起来太亮(和模糊)。

3) 控制对计算机的访问。最好将计算机本身放在参与者无法接触到控件的地方(即,这样他们就不会重新启动计算机、弹出软盘或调整显示器设置)。

4) 舒适。如果参与者必须长时间坐着进行实验,请务必有一把舒适的椅子。花几分钟为高个子或矮个子的参与者调整椅子可能会大大减轻他们的不适感。环境温度也应舒适。

5) 测试多个参与者。如果有多台计算机可用,请考虑同时测试多个参与者。如果所有参与者同时开始,则可以使用口头指示,但如果他们没有
,则可能将所有指示都显示在屏幕上。如果是这样,请务必事先彻底测试这些说明——被认为非常清晰的说明可能并不适合参与者群体。当使用刺激或音调的听觉呈现来发出错误试验的信号时,会出现多参与者测试的另一个考虑因素。参与者很容易对声音的来源感到困惑;但是,耳机通常可以避免该问题。

键盘是正确的输入设备吗?
通常,键盘用于响应收集,通常将允许的键限制为用于响应的键。但是,在许多情况下,键盘可能会导致问题。参与者很容易对正在使用的密钥感到困惑。如果在黑暗的房间里工作,找到正确的按键可能很困难。如果参与者必须查看键盘才能找到他们需要的键,那么记录反应时间可能是灾难性的。尤其是对于孩子,玩键盘的诱惑可能太大了。一个不错的选择是使用仅包含有限键的响应框,例如 Psychology Software Tools 中提供的 Chronos® Response and Stimulus Device。也可以使用带有 Chronos® 响应和刺激设备的 Custom Expansion Kit 制作自定义响应框。

单次试验、反应时间范式
使用单次试验反应时间范例的实验由一个或多个试验区组或试验集组成。每次试验包括至少一个刺激物的呈现,以及参与者做出反应所需时间的集合。试验各不相同(区组内或区间),每种试验类型代表 IV 的单个水平(或两个或多个 IV 水平的唯一组合)。主要 DV 是 RT,但准确性 (通常为百分比误差或正确百分比) 也作为次要 DV 进行检查。RT 和准确性都记录为每项试验的 DV,但分析通常基于每种试验类型的平均 RT(或正确百分比),在所有正确试验中取平均值。

单次试验反应时间实验的关注点是各种自变量如何影响 RT,也就是说,当我们故意以某种方式操纵刺激时,RT 会如何变化。然后根据 RT 随自变量变化的模式做出关于认知和感知的推断。然而,RT 也受到许多没有直接关系的变量的影响。必须以某种方式控制这些可能混杂的变量,以便它们不会影响结果。

按照 RT 的定义,我们讨论了典型 RT 实验中发生的事件。然后我们讨论了许多可能影响 RT 的混杂因素,并且在设计使用 RT 作为因变量的实验时必须考虑这些混杂因素。

RT 定义。对于大多数心理学研究,RT 被定义为从刺激开始到参与者做出反应的时间。对于计算机化实验,这通常是从刺激开始到按下指示响应的键的时间。


需要注意的是,RT 可能会有所不同,具体取决于所需的特定响应。假设一个实验有两个版本,仅在于参与者如何响应以表明已经看到了两种刺激类型中的哪一种。在一个版本中,他们必须按下计算机键盘上的“1”和“2”键来指示出现了哪种类型的刺激。在另一个版本中,他们必须向左或向右按下杠杆来指示刺激。在杠杆推举的情况下,总体 RT 可能会更长,因为机械阻力更高,或者因为要移动的距离更远,或者因为在两种类型的反应中采用了不同的肌肉。在这种情况下,在比较两个实验的结果时需要谨慎。获得的 RT 的差异可能完全是由于机械因素造成的,并不反映任何利益差异。因此,在比较使用不同反应的实验结果时需要小心。使用相对较快的按键还是相对较慢的杠杆按下都会影响整体 RT,但无论哪种情况,对两种刺激做出反应的时间差异可能大致相同。因此,在比较实验时,关键问题是是否观察到 RT 的相同差异模式,而不是总体 RT 是否不同。

虽然我们将 RT 定义为从刺激开始到反应的时间,但有时它以其他方式定义。例如,在许多运动机能学研究中,RT 是根据肌肉电位(肌电图信号)的开始定义的,而从肌肉中的第一次电活动到反应运动本身完成的时间称为运动时间。由于 RT 有时定义不同,并且它可能取决于反应装置的性质,因此在 RT 研究中,
明确 RT 的定义和反应的性质并在研究报告的程序部分报告非常重要。

RT 有时也被归类为单纯 RT 或选择 RT。在简单的 RT 中,参与者对单个刺激做出一种反应。这只需要对刺激的存在做出判断,而不涉及对刺激性质的决定。当可能发生多种类型的刺激时,会测量选择 RT,参与者必须通过他或她选择的反应来表明刺激类型。由于对简单 RT 的研究很少见,除非另有说明,否则“RT”是指选择 RT。

一般注意事项
在制定 RT 研究的一般考虑因素时,我们研究了有关每次试验中发生的事件、试验块如何不同,以及最后这些如何组合形成一个整体实验的问题。

示例实验
为了允许讨论问题的具体示例,我们首先概述了一个可以在 E-Prime 中相当容易实现的实验。这里的意图是明确,而不是科学重要性。假设您希望检查刺激位置的 RT 如何受到刺激位置变化的影响。视力最适合中心凹视觉(视野的一小块中央部分)中的物体,对于周边视觉中较远的物体,视力会迅速下降。但这会影响 RT 吗?下面的实验将有助于回答这个问题。

主因变量是 RT,准确率 (正确百分比) 作为次要因变量。自变量是刺激的位置以及是否调整其大小以补偿较差的外周敏锐度。刺激是一个字母,在屏幕上的随机位置显示。刺激字母以位置 0、2、4、8 和 16 为中心,位于正前方的左侧和右侧。选择字母大小以补偿与中央视力(参考)的距离。要显示的字母是 C、G、O 和 Q,一个响应是 C 和 O,另一个响应是 G 和 Q。选择这些字母是因为 C 和 G 有很多特征重叠,O 和 Q 也是如此,因此区分相当困难。使用了四个不同的字母,因此参与者不能依赖单个特征(例如 Q 的尾部)进行区分。

每次试用会发生什么情况?
通常,RT 试验由一个或多个试验系列(区组)组成。虽然具体的刺激可能因试验而异,但每次试验中实验的某些方面通常是相同的。通常会有某种固定标记,让参与者知道在试验开始时他或她应该看哪里。试验的启动可能由参与者控制,允许参与者在他或她准备好时开始试验。或者,试验的启动可以是自动的,由实验者或计算机控制。在这种情况下,通常会发出警告信号,以允许参与者为试用做好准备。有时固定标记的外观充当警告,有时使用音调或其他信号。在开始试验后(由参与者或自动启动),通常会有短暂的延迟,刺激才会出现。这种延迟称为前期,可能因试验而异,也可能是固定的(不变)。对于选择 RT 任务,前期通常是固定的。

在前期结束时,提出刺激。在许多实验中,只有一个事件构成整个刺激。在其他情况下,屏幕上可能会显示分散注意力的元素,或者作为素数的刺激。在任何一种情况下,反应的时间从显示关键刺激时开始。临界刺激是指显示中决定适当反应的元素(即按下哪个键)。这有时被称为“必要”刺激。刺激持续时间(它在视野中保持的时间)将在很大程度上由刺激显示的性质控制。例如,如果刺激呈现期间的眼球运动会影响实验,则通常使用非常简短(例如 100 毫秒)的呈现,因为在刺激出现后大约需要 200 毫秒才能开始眼球运动。如果刺激持续时间太短,以至于参与者只能看一眼刺激,则显示被描述为数据受限显示。下面将讨论涉及数据受限显示的其他情况。

定义试验的另一个问题是给参与者多长时间的响应时间。通常,参与者必须在有限的时间内通过按键进行响应。该时间的选择取决于预期的 RT 类型,允许的时间设定以涵盖任何合法的审判。如果任务很简单,大多数试验的 RT 小于 500 毫秒,则允许响应的时间可能相对较短(例如,两秒左右)。如果在该时间段内没有反应,则试验将被视为遗漏。然而,许多更难的任务的典型 RT 为 1-2 秒。在这种情况下,应相应地增加允许的响应时间。

通常在反应后给出有关准确性和/或 RT 的反馈。通常会提供有关准确性的反馈,告诉参与者他们选择的回答是对还是错。不过,应该注意的是,参与者通常知道自己做出了错误的回答。准确性反馈强调了正确响应的重要性。因为通常的 RT 指令强调反应速度,所以 RT 反馈很重要,因为它可以让参与者监控自己的表现。许多研究人员不愿意报告错误试验的 RT,以避免鼓励参与者快速响应,从而降低准确性。

试验间隔 (ITI) 是从一次试验结束到下一次试验开始的时间。如果参与者控制下一次试验的启动,则参与者也控制 ITI。当控制 ITI 很重要时,试验的启动必须由计算机或实验者控制。

在一些实验中,每次试验中可能出现不止一个刺激,或者可能有一个启动,然后是一个需要响应的刺激(有时称为命令式刺激)。例如,如果参与者必须判断他们看到的两个字母是相同还是不同,他们可能会看到一个字母,然后在很短的时间内看到第二个字母。第二次刺激之前的
延迟是刺激间隔 (ISI)。ISI 是从第一次刺激开始到第二次刺激开始的时间。另一个术语是刺激起始异步 (SOA)。

在视力示例实验中,需要一个中央注视标记,以便刺激位置的测量是准确的。因为必须指定位置并选择适当大小的字母来补偿与固定的距离,所以有必要使用观察罩或下巴托控制参与者到屏幕的距离。到屏幕的距离和结果显示大小(以视角度数为单位 – 见下文)应包含在最终报告的方法部分。为了确保参与者不会转动眼睛并将字母重新固定在中央视觉中,需要一个数据受限的显示。150 ms 的显示将对此进行控制。参与者可能会采用猜测位置的策略,因此在试验开始时不会看注视点。这可以通过在说明中强调参与者在开始每次试验时应直接注视注视点,以及通过将刺激随机呈现在注视点的左侧或右侧来防止。如果参与者采用猜测策略,这将导致他们完全错过很多刺激,而高错误率将清楚地表明存在问题。

由于显示简短,并且需要保证参与者正在观看注视,因此应使用参与者发起的试验,并具有固定的前期。此任务的 RT 应该相当快,因此将允许的响应时间限制为 2 秒或更短可能是合适的。将使用准确性反馈,仅对正确的试验报告 RT。

在一组 Trial 中会发生什么情况?
构成实验的整个试验系列通常分为试验块。这种划分可能只是反映了时间限制。在长时间的实验中,最好确保参与者偶尔暂停,因此最好将整个系列分成较短的块,并在它们之间留出休息暂停。更重要的是,将 Experiment 划分为块可能是 Experiment 本身不可或缺的一部分。本节的其余部分将处理这种情况。

阻塞 vs 随机呈现
假设一个试验中呈现了两种或多种不同类型的试验(两个或多个自变量,每个自变量有两个或多个水平)。需要考虑的一个问题是,这些不同类型的试验是否应该放在每个区块中,各种类型的试验以随机顺序交替出现,或者是否应该将一系列试验放在一起,先介绍一种类型的所有试验,然后介绍另一种类型的所有试验。

比较字母标识实验的两个版本。一个是上述实验,不同之处在于参与者必须通过按四个键中的一个来指示存在四个字母中的哪一个(四选 RT)。另一个是相同的,只是只使用了两个字母(二选 RT)。这两个试验的不同之处仅在于两种类型的试验(二选和四选)是随机发生(在单个区组内)还是被阻止,所有二选试验一起发生,所有四选试验一起发生。为了直接比较四选 RT 和二选 RT,两种类型的试验(二选一和四选一)可以随机发生(在单个区组内),也可以被阻止进行,所有二选一试验一起进行,所有四选一试验一起进行。

一般来说,我们预计 RT 会随着选择数量的增加而增加 (Wickens, 1992)。如果参与者完成了 1 个 2 个选项块和一个 4 个选项块,那可能就是结果。但是如果随机呈现,情况可能并非如此。为什么不呢?在这个实验中,随机呈现可能会导致参与者忽略试验是 2 选题还是 4 选题。也就是说,以随机顺序看到刺激的参与者可能懒得注意试验是涉及两个选择还是四个选择,而是将所有试验视为涉及四个可能的选择。这将增加二选制试验的平均 RT,而对四选制试验没有影响。也就是说,实验的结果(部分)取决于刺激类型的阻塞呈现还是随机呈现的选择。


因此,一般来说,随机或块状展示的选择必须取决于给定随机试验顺序的参与者是否会采用与给定块顺序的参与者不同的策略。在上述实验的情况下,随机顺序实验的参与者可能会采用忽略是有两个选择还是四个的策略,并将二选择试验视为四选择试验。因此,阻塞版本为我们提供了在两个和四个响应选项之间进行选择所需的实际时间的更好估计。

当使用阻断呈报时,会提出治疗令的平衡问题。在二响应与四响应实验的块版本中(一个自变量的两个水平),一半的参与者将首先进行二选试验,而另一半将先进行四选试验。这种平衡旨在消除(或至少平衡)从一个试验块到下一个试验块的任何结转影响。

某些混杂变量通常由平衡控制。一种是将刺激映射到响应。如果有兴趣将目标“C”和“O”的反应速度与上述实验的双响应版本中目标“G”和“Q”的反应速度进行比较,请让一半的参与者按“C”和“O”的“1”键以及“G”和“Q”的“2”键来响应。一半会以相反的方式做出反应,按下“C”和“O”的“2”键。这控制了由于不同反应本身而导致的 RT 可能的任何差异,并且是必要的,因为某些肌肉动作比其他动作需要更长的时间。

如果在字母大小调整或未调整大小的条件下比较字母的检测,则调整感兴趣的比较与恒定大小;因此,由于“1”和“2”响应试验将一起平均,因此可能不需要平衡。然而,在其他实验中,它可能绝对至关重要。例如,考虑一个版本的字母选择实验,其中呈现两个字母,参与者必须通过按一个键来表明字母是相同的,或者通过按另一个键来表明它们是不同的。由于该实验的一个方面是比较 “相同 ”和 “不同 ”的反应,因此平衡反应键到相同和不同刺激的映射是很重要的。否则,RT 与 “相同 ” 和 “不同 ”之间的差异可能被解释为反映了刺激的差异,而它实际上反映了按下 “1 ”键和“2 ”键的反应时间的差异。RT 的差异实际上是由于缺乏适当的平衡。(或者,未能平衡可能会导致发现没有差异,而实际上确实存在差异。

一个区组中
的试验排序 当每种类型的试验都显示在单个试验区组中时,几乎总是将试验的顺序随机化。这相当于在一张卡片上写下每个试验(包括重复相同刺激的多张卡片),然后洗牌。但是,随机化可能会导致问题。假设有两种类型的试验。在单个块中,每种类型的 100 个试验以随机顺序呈现。很可能会出现一些相当长的单一试验类型的序列,单一类型连续出现 7 或 8 次。因为人类期望随机性产生比实际更短的序列,所以参与者往往会陷入赌徒谬误。如果一种试验类型连续出现 6 次,参与者通常会决定另一种试验类型“过期”并期待它,或者他们会决定他们看到的类型更有可能发生并期待再次出现。在任何一种情况下,如果期望是正确的,参与者可能会非常快速和准确。如果期望是错误的,参与者会很慢并且容易出错。

整个实验中会发生什么?
实验由一个或多个试验数据块组成。如果实验特别长,则可以将其分解为每个会话,每个会话包含一个或多个块。在这种情况下,可能还需要跨会话对块进行平衡。实验通常以有关实验性质的说明和一些模拟试验开始。实验结束时,通常会使用某种形式的汇报来向参与者展示实验的目的并允许对实验提出问题。说明、练习和汇报在下面单独考虑。

说明
在任何实验中,说明的目的是让参与者知道将会发生什么以及正确的反应是什么。在 RT 研究中,说明还应强调参与者应尽快做出反应,同时保持准确。“准确”通常被视为 10% 或更少的错误,但这也取决于具体的实验。

在长时间的实验中,还建议指导参与者他们应该偶尔休息一下。如果试验是由参与者发起的,则这些中断由参与者控制。否则,最好通过设置相当短的 Trial 块(例如 5-10 分钟)来“构建”中断。偶尔的休息可以避免参与者只是盯着屏幕并像僵尸一样按下按键。这意味着参与者不太容易出错,而且 RT 也较少参与由于眼睛疲劳、精神疲劳等原因而增加的变异性。


练习
大多数实验要求人们做不熟悉的任务,并要求他们通过按下以前与刺激无关的键来表示他们的反应。如果出现“C”或“O”时要求按“1”键,如果出现“G”或“Q”,则要求按“2”键,则参与者必须首先学会将 1 与 C 和 O 相关联,将 2 与 G 和 Q 相关联。起初,参与者的回答会非常缓慢且容易出错,这仅仅是因为他们必须仔细考虑在确定目标字母后要按哪个键。一段时间后,参与者不再需要考虑按哪个键,他们的响应变得更快、更准确。因此,通常在实际开始收集数据之前对任务进行一些练习。这种做法的效果是减少实验本身期间 RT 的可变性。在试点测试期间可以确定模拟试验的数量。在练习试验期间站着观察参与者也是一个好主意,以确保他们理解任务。如果他们犯了很多错误,您有时可能需要鼓励他们放慢速度。一旦他们清楚地了解了任务,就鼓励他们尝试加快速度。在每次试验或试验块后显示平均准确率可能很有用。

在一次会话中完成的简短实验中,通常只需要一个模拟试验块。如果实验持续多个会话,通常会在每次会话开始时进行简短的实践试验,并且第一次会话通常被视为实践。如果刺激显示或响应的类型因块而异,则可能还需要在每个试验块之前进行练习。

报告
实验结束后,通常会向参与者汇报情况。汇报通常是一个简单的问题,告诉参与者预期会发现什么 RT 模式以及为什么。也就是说,汇报用于向参与者解释实验的内容。参与者还可以看到他们的个人结果。汇报的第二个原因是从参与者那里获得关于他们自己经历的评论。虽然这些评论可能不是数据的一部分,但它们有时可以揭示实验者没有考虑过的策略的使用,甚至可能指出设计中的缺陷。请记住,参与者在实验期间花费了一些时间试图弄清楚 “发生了什么”。在此过程中,他们可能会注意到实验者从未注意到的实验内容,包括问题。

多少次试验?
为什么不让参与者对每种类型的显示做出一次响应,并将该单个 RT 作为该条件的“分数”呢?这肯定会更快,因为需要的试验很少。然而,使用此过程的问题在于,它忽略了由于自变量以外的因素而导致的 RT 中的巨大变异性。RT 因试验而异,即使刺激措施没有。这种可变性来自注意力和肌肉准备的瞬间变化等。请注意,参与者无法在任何时间内均匀一致地集中注意力。即使你正在听一场引人入胜的讲座,你也会发现你的注意力不时游离。同样的事情发生在 RT 实验中,当参与者坐着进行一次又一次的试验时。有时,参与者会在他们的注意力不集中在任务上时开始试用。发生这种情况时,通常会导致非常长的 RT。对于所有刺激类型,由于注意力不集中而导致的长时间 RT 的发生频率预计大致相同,因此将一些此类试验与许多其他试验平均不会产生问题。

看待每种情况的试验数量问题的另一种方法是认识到,每次试验的 RT 提供了该参与者对该条件的“真实”RT 的估计值。由于上述原因,每个单独的估计都不是很可靠。因此,对多个估计值(许多试验中的 RT)进行平均提供了对“真实”RT 的更好(更可靠)的估计。回想一下,随着样本量的增加,总体平均值的置信区间估计变得越来越精确。同样,随着样本量的增加,对真实 RT 的估计会变得越来越好——尽管在这种情况下,样本量是指每个参与者的试验数量,而不是参与者的数量。通过使用置信区间公式,确定具有一定准确性所需的试验数。在实践中,每个受试者每种情况 15-30 次试验似乎提供了令人满意的结果。这已经足够了,以至于一些异常试验对该病的平均 RT 影响很小。

参与者间与参与者内设计
RT 实验的另一个重要问题是自变量是否应该在参与者之间或参与者内部进行操作。参与者间变量是指在变量的每个级别上测试不同参与者的变量。以 2 选 RT 与 4 选 RT 为例,这意味着参与者要么做 2 选版本,要么做 4 选版本,但不能同时做两者。参与者内变量是每个参与者在变量的每个水平上接受检验的变量。对于同一示例,这意味着每个参与者都进行 2 选和 4 选 (以随机或块顺序) 。

首选哪种方法?为了简化,我们在这里使用不同的示例。假设一名实验者想确定酒精对简单刺激的 RT 的影响,并且有 20 名参与者可用。他或她可以随机分配 10 名参与者在醉酒时执行任务,10 名参与者在清醒时完成任务,然后比较这些平均 RT。这将是一个参与者之间的设计。但是为什么不对
每个参与者进行清醒和醉酒测试呢?这样,每种情况都有 20 个参与者。这将是一个参与者内部的设计。(当然,她会想平衡顺序,测试一些参与者是清醒的,然后是醉酒的,还有一些是醉酒的,然后是清醒的。应该清楚的是,基于每组 20 名参与者的分析比基于每组仅 10 名参与者的分析更强大。(请注意,统计分析的类型会略有变化,因为参与者内部设计违反了独立样本的假设。在这种情况下,比较两种均值,独立样本的 t 检验将与参与者间设计一起使用,而相关(“相关”、“匹配对”)样本的 t 检验将与参与者内设计一起使用。如果使用了多个剂量水平,则适当的测试将是参与者间设计的标准方差分析,以及参与者内部设计的重复测量方差分析。

关于上面的示例,需要注意的主要一点是,如果适合使用,参与者内部设计显然更好,因为它有效地增加了样本量。但它的使用也存在严重的限制。在这个例子中,参与者内部设计效果很好,因为如果实验者测试参与者喝醉了,然后在几天后测试他们是否清醒,她可以相当确定参与者的唯一系统性差异是他们是否清醒。同样,当将 RT 与 2 个刺激与 4 个刺激进行比较时,在 2 个刺激之间做出选择可能不会对以后在 4 个刺激之间做出选择产生影响(反之亦然)——至少在试验被阻止的情况下。但在许多情况下,假设没有从一种条件转移到另一种条件是没有道理的。例如,要将 RT 与在两种不同类型的训练后命名无意义的形状进行比较,需要参与者间设计,因为如果参与者通过一种方法学习了某些东西,则该学习是无法“擦除”的。如果参与者在第二轮学习后表现得更快,是因为这种学习方法更好吗?还是差异仅仅是由于额外的学习?另一种需要参与者间设计的情况是,当变量 “附加 ”到人身上,并且不能通过实验进行操作时。此类变量包括性别、种族、民族背景和宗教。


因此,一般来说,如果可以合理地假设自变量的一个水平对该自变量的其他水平的性能没有延展效应,则首选参与者内部设计。如果该假设不合理,则应使用参与者间设计。请注意,这类似于试验的随机顺序与按试验类型进行块的问题 — 如果遇到变量的一个水平可能会诱导转移到另一个级别的策略,则在使用参与者内设计时,应阻止这些水平。如果阻塞不能解决问题,则需要参与者间设计。

考虑何时使用参与者内部设计的另一种方法是考虑实验性 “治疗” 或操作的效果是否消失。如果时间的流逝会消除操纵的影响,那么参与者内部设计可能是合适的。一个古老的笑话说明了这一点。一位女士走在街上,看到一个男人醉醺醺地躺在排水沟里。“先生,”她显然厌恶地说,“您喝醉了!“男人睁开一只眼睛回答说:”是的,夫人,你很丑。明天,我就要清醒了。一些治疗会消失,因此是参与者内部操作的候选者。

还有一些实验同时采用参与者内部和参与者之间的自变量。这些通常称为混合设计。例如,为了比较字母识别实验中男性和女性的 RT 模式,除了位置以及是否调整字母大小以补偿与中央视觉的距离外,性别将被添加为另一个自变量。位置和调整将是参与者内部变量。但是性别(男性与女性)将是参与者之间的变量,因为没有参与者可以同时在两组中。

RT 研究中的其他考虑因素

下面讨论了在设计使用 RT 作为因变量的研究时必须考虑的许多其他因素。Wickens(1992 年,第 8 章)对大多数相同的问题提供了更详细的解释。

速度-准确性权衡
在使用 RT 作为因变量的研究中,兴趣通常在于证明 RT 对于不同水平的 IV 不同。但是,如果与更快的 RT 相关的条件也具有更高的错误率,则可能会出现严重的问题。这种情况称为速度-准确性权衡,因为参与者可能会牺牲(交易)较低的准确性以获得更高的速度。也就是说,他们在这些试验中可能更快,因为他们在推动自己追求速度,但忽略了这种努力通常伴随的更高错误率。考虑字母识别任务中 RT 的比较。

假设与中央凹视觉的距离增加时未发现 RT 差异,这与预期发现 RT 增加以识别不太清晰的字母形成鲜明对比。如果看到错误率随着差异的增加而增加,则表明参与者正在用准确性换取速度——为了在更困难的条件下保持相同的响应速度,参与者允许错误率攀升。

幸运的是,在大多数 RT 研究中,不会发生速度与准确性的权衡。事实上,大多数情况下,最快的条件将具有最低的错误率,而最长的 RT 将出现在错误率最高的条件下。在这种情况下,困难的刺激会导致缓慢和草率的反应。无论如何,检查错误率以寻找速度与准确性权衡的证据是一种明智的做法。为避免此问题,对参与者的说明通常会强调他们必须在每种情况下尽可能快,但不能牺牲准确性。也就是说,在所有条件下,错误率都应该一致地较低。

刺激-反应兼容性
在大多数 RT 研究中,刺激和反应之间的联系是任意的。参与者可能会被指示按“<”表示 S,“>”表示 H,或按“>”表示 S,按“<”表示 H。但有时映射不是任意的。考虑相同的实验,但使用 L 和 R 作为刺激,而不是 S 和 H。例如,如果参与者必须按“<”表示 R,按“>”表示 L,则由于 L 与 “left” 和 R 与 “right” 相关联,他们可能比其他方式更慢且更容易出错。对 R 做出 “左 ”反应很可能会产生一些反应竞争,从而导致 RT 变慢。基本上,任何时候刺激暗示一定的反应方向(例如 L 和 R 暗示左和右反应),都存在 S-R 兼容性的潜在问题。


刺激的概率
在大多数将 RT 作为因变量的实验中,每种类型的刺激出现的频率相同。通过这种方式,不鼓励参与者猜测,因为每次试验中每种刺激的可能性相同。然而,有时一种刺激可能比另一种刺激更频繁地出现,并且可能对 RT(和错误率)产生重大影响。一般来说,最常见的刺激反应更快、更准确。为什么会这样呢?假设在识别 S 和 H 的实验中,参与者在 80% 的时间内出现 H,在 20% 的情况下出现 S。参与者很快就会意识到这一点,并且大多数时候会期望 H。在任何试验中,如果目标是 H,则可能会有更快的响应。但是,如果目标是 S,则参与者必须克服他们的期望,并为 H 做准备。结果是响应速度变慢,出错的可能性更高。

由于这些考虑,无论何时使用随机化,最好始终具有不同试验类型的可能性相等。最好避免不等的刺激概率,除非它们构成了研究本身的一部分。


不同响应
数 RT 随着可能响应数的增加而增加。这种关系早已为人所知,并在 1950 年代初期被量化,当时 Hick 和 Hyman 独立工作,他们都注意到 RT 随备选方案数量的对数(以 2 为底)线性增加。这意味着其他替代方案将增加 RT,但随着响应数量的增加,这种增加的影响会更小。这种效应通常不是太大的问题,但在比较几个实验的结果时必须牢记(即,如果他们使用不同数量的响应替代方案,则无法直接比较 RT)。


强度和对比度
至少对于低水平的照明,刺激越强烈,RT 越快。然而,一旦刺激达到清晰可见的强度,进一步的增加将几乎没有影响。同样,增加对比度(刺激和背景之间的强度差异)会降低 RT,直到刺激清晰可见。低强度或低对比度都会产生数据受限的显示。非常短暂的刺激是数据受限显示的另一个示例。

控制强度和对比度的一个常见问题是环境光(房间中存在的光)。在普通房间照明下可能看起来很弱的显示器在房间灯关闭且窗户被遮住时可能看起来非常亮。在采用简短、数据受限的刺激显示的实验中,仔细控制环境光非常重要。

除了降低表观强度和对比度外,环境光还可能导致计算机显示屏上的眩光或反射。在这种情况下,必须屏蔽灯或移动计算机以防止此类干扰。

刺激位置

刺激的位置对 RT 和错误率都有很大的影响。当刺激物远离中央凹时,视力会迅速下降,中央凹是正前方的狭窄视野区域,宽度约为 2°。中央凹视力为 20/20 的人通常具有大约 20/80 的视力,与正前方 2.5° 的视力。在与直线成 10° 时,大多数人的视力低于 20/300。从这个角度来看,在 57 厘米(22.5 英寸)的观看距离下,每厘米大约是 1° 的视角,因此在距离固定点 2.5 厘米(约 1 英寸)处显示的字母将非常难以看到。

由于这些原因,如果刺激物并非全部呈现在同一位置,则必须通过随机化或平衡来控制视网膜轨迹(刺激物的图像落在视网膜上的位置)。如果一种类型的刺激出现在中央凹,而另一种类型的刺激出现在外围,则可能会出现 RT 的差异(或不会发生)。然而,它们可能是由于刺激位置的不同,而不是刺激本身的差异。

请注意,刺激的相对大小是与眼睛距离的函数。如果刺激的相对大小是一个问题,那么还必须控制参与者头部相对于屏幕的位置。这通常通过使用下巴托或观察罩来完成,以保持参与者的头部相对稳定。在这种情况下,应在最终报告的 Method 部分指定可视距离。还报告了刺激的大小,以视角的度数为单位,而不是毫米或英寸。

可以使用余弦定律来计算以视角度为单位的刺激大小。通过公式可以获得一个很好的近似值

以视角度为单位的大小 = 57.3W/D

…其中 W = 显示宽度,D = 观看距离,其中 W 和 D 采用相同的测量单位。


RT 数据的统计分析

虽然这篇对单试验 RT 研究的简要回顾不能包括对数据分析的广泛讨论,但有几点值得评论。

单试验 RT 数据的典型分析采用方差分析 (ANOVA) 来比较自变量水平定义的各种治疗条件下的平均 RT。对于参与者内变量,采用重复测量方差分析。有时,参与者内因素和参与者间因素都出现在同一个实验中,从而导致混合方差分析。对于字母识别的示例实验,有两个自变量定义分析的试验类型。一个是刺激的位置,它有六个级别(0、1、2、4、8 和 16°)。另一个是它是否调整了大小以纠正视力不佳,它有两个级别(调整与否)。对于此分析,将为每个参与者计算 12 种条件中每一种的平均 RT,这些值将用作数据。然后,方差分析根据所有参与者比较这些值的均值,以确定统计显著性2.

除了 RT 分析外,还应对错误率进行平行分析,以正确百分比或百分比误差表示。(由于百分比误差只是 100 减去正确百分比,因此这些分析会产生相同的结果。一般来说,错误率应该与 RT 平行——更快的条件具有较低的错误率。如果更快的 RT 与较高的错误率相关,则应怀疑速度-准确性的权衡,并且只能极其谨慎地解释 RT 差异。


在几乎所有情况下,RT 分析仅基于正确的试验。最好检查每个参与者的总体错误率。虽然构成可接受率的内容会因不同的实验而异,但通常的做法是删除错误率明显高于正常值的任何参与者的数据。在这种情况下,参与者很可能误解了说明,或者只是无法执行任务。如果可能的话,应提前设置最大错误率,这样就不会因为不符合预期结果而删除参与者的数据。试点测试应该有助于设置最大错误率。

RT 数据分析的另一个问题涉及异常值,或偶尔试验中出现的极度偏差的 RT。这些通常涉及极慢的 RT。许多研究人员认为这种极端的 RT 反映了短暂的疏忽或混乱,因此在按条件计算个体参与者的平均 RT 之前,它们被适当地从分析中省略。一个常见的标准是省略任何 RT 与该病症的平均值相差超过 3 个标准差的试验。这可以根据所有参与者的 RT 平均值和标准差或单个参与者来完成。如果参与者之间的 RT 存在较大差异,则清楚地表明后者。已经提出了更复杂的处理异常值的方案(Ratliff,1993 年;Ulrich & Miller,1994 年)。

重复测量方差分析几乎总是用于 RT 数据的显著性检验,它假设“复合对称”,即所有条件对的协方差相等。这个假设在实际数据中很少得到满足。大多数统计包根据 Greenhouse-Geiser 统计量或较新、不太保守的 Huynh-Feldt 统计量计算 p 的调整值。一般来说,这些校正后的 p 值应用于评估统计显著性

1我们意识到,现在将我们从中获取数据的人称为“参与者”是很时尚的(美国心理学会出版手册,第 4 版,1994 年)。我们继续使用术语“参与者”,因为做实验的全部意义在于您(实验者)操纵自变量。正是因为这个人同意暂时暂停控制,让你决定他们将要接触到的静脉注射水平,或者水平的顺序,才使这项研究成为一项实验。当然,参与者可以随时取消自己的参与,但只要他们参与,参与者就允许您按照您选择的
条件参与他们。“参与者”意味着一种不属于实验一部分的自由选择水平(超越了选择是否参与和退出的自由)。

2对围绕传统原假设检验优点的争议的讨论超出了本讨论的范围。有关此主题的讨论,请参见 1997 年 1 月的 Psychological Science 和 Chow (1998) 中的几篇文章。

Loading


0 条评论

发表回复

Avatar placeholder

您的电子邮箱地址不会被公开。 必填项已用 * 标注

沪ICP备05040608号-8