文章
可靠性和有效性
在本文中,我们讨论了评估DuDu Type Explorer的各种可靠性和有效性指标。所有指标均参考评估的英文版本——我们也监控和改进所有国际部分,但在同一篇文章中涵盖它们会让人难以承受。
内部一致性
称为Cronbach's alpha 的系数衡量属于同一量表的问题是否会产生相似的分数。例如,如果您同意“我喜欢饼干”,那么您也可能会同意“我过去吃了很多饼干”,并且不同意“饼干的味道让我很恼火”。
Alpha 值通常预计在 0.70 到 0.90 之间。较低的值表明正在评估的问题可能无法衡量相同的结构;较高的值意味着冗余。从下表中可以看出,我们所有的量表都具有良好的 alpha 值,这证实了我们的评估是可靠的,并且可以很好地测量其所有量表。
规模 | 阿尔法 |
---|---|
内向与外向 |
0.87 |
观察与直觉 | 0.78 |
思考与感觉 | 0.75 |
判断与灵活 | 0.82 |
自信与动荡 | 0.86 |
样本量:10,000 名受访者。
重测可靠性
重测信度表明原始测试结果与重考结果(通常在较长时间后)之间存在多少相关性。可靠性系数越高,特定量表上的变异性越小。
重要的是要记住,人格心理学中测量重测可靠性与近静态物理测量(例如视力)有很大不同。至少,完美的重测实验需要相同的环境和相同的心态,这在性格测试中几乎是不可能实现的。
例如,我们的数据强烈暗示某些性格类型对 2016 年美国总统大选的反应不同,在诸如自信-动荡等量表上出现显着变化,这可能表明焦虑增加或减少。随着我们的成长和成熟,我们的性格特征也会发生轻微的变化。因此,在一段时间内出现一些变化是肯定可以预料到的。
也就是说,我们的评估也通过了重测挑战。就像 Cronbach 的 alpha 一样,所有系数预计都为 0.70 或更高。
规模 | 系数 |
---|---|
内向与外向 |
0.83 |
观察与直觉 | 0.74 |
思考与感觉 | 0.80 |
判断与灵活 | 0.79 |
自信与动荡 | 0.78 |
样本量:2,900 名受访者,他们在休息 5-7 个月后接受了我们的评估。 p< 0.001。
判别效度
第三步是判别效度分析。它确认了不应该相关的尺度是否真的不相关。换句话说,我们实际上是在测量五个不同的尺度,还是它们以任何方式混合在一起?我们是否确定,当我们向您询问与内向与外向量表相关的问题时,我们不会无意中测量到自信与动荡量表的一半?
是的。我们来看看下表。该系数的最大接受(绝对)值通常被认为在 0.70-0.80 左右——如果超过这个值,则意味着两个尺度之间有足够的重叠,从而使它们无效。
正如您所看到的,我们所有量表系数的绝对值都远低于阈值。观察-直觉和判断-探索量表的系数最高,为 0.37,这种轻微的正相关关系已被其他测量类似概念的工具反映出来——与第一个量表的直觉方面相关的模糊性容忍度的增加非常适合探矿者众所周知的对灵活性的渴望。不管怎样,它们的相关系数太低,以至于任何一个尺度都不会对另一个尺度产生不可接受的影响。
因此,第三次检查表明,所有五个量表都是不同的,并且不会以让我们质疑其完整性的方式相互影响。
内向与外向 |
观察与直觉 | 思考与感觉 | 判断与灵活 | 自信与动荡 | |
内向与外向 |
-0.09 | 0.02 | -0.01 | -0.29 | |
观察与直觉 | -0.09 | 0.09 | 0.37 | 0.22 | |
思考与感觉 | 0.02 | 0.09 | 0.08 | 0.25 | |
判断与灵活 | -0.01 | 0.37 | 0.08 | 0.16 | |
自信与动荡 | -0.29 | 0.22 | 0.25 | 0.16 |
样本量:10,000 名受访者。
结论
总而言之,统计分析证实:
我们的评估基于五个不同且独立的量表;
所有量表内部一致;
即使在中断约 6 个月后,重新参加我们评估的人很可能在所有量表上获得相似的分数。
我们始终欢迎反馈、问题和批评,所以如果您对上述指标有任何意见,请随时给我们留言!