01、什么是评分量表?
“评分量表”这个名词可能对大家来说比较陌生,其实我们生活中常常可以见到。为了便于理解,我们举一个常见的例子:
那么怎么定义“评分量表”呢?
评分量表又叫做“评价量表”或“评定量表”,它是指给事件、行为或特质一个标准化程序,通常是由一系列评分问题构成的。
每个评分问题均对提出的问题,以两种对立的态度为两个端点,在两个端点中间按照程度顺序排列不同的态度。再由被调查者从中选择一种适合自己的态度表现。
比如上面的例子,就是一个典型的评分问题。满意和不满意就是两种对立的态度,从左到右,满意程度逐渐递增。被调查者拿到问题时,可以挑选一个选项表示自己对购买商品的满意程度。
现在大家对评分量表应该有了一个基础的认识,现在我们就来介绍下几种常见的评分量表类型。
02、常用的评分量表类型
在问卷设计中常见的评分量表主要有以下两种:李克特量表(即Likert量表)、语义差异量表。
(一)李克特量表
1、李克特量表介绍
之所以叫李克特量表,是因为他的提出者是美国的社会心理学家Likert(李克特)在1932年在原有的“总加量表”基础上提出的。
典型的李克特量表,是由一系列与测量概念相关的陈述句及选项构成的,每个陈述句和选项构成一个李克特项(Likert item)。下面是一个李克特项的示例:
每一个李克特项的题目会陈述一个观点,这个陈述句可能是正性或者负性,由回答者给出自己同意该陈述句的程度或水平。通常使用5点或7点标度,详细的原因和灵活使用注意事项我会在下面的「第三部分」中进行说明。
通常使用的5点同意量表如下图所示:
综合以上的示例,或许你已经发现,评分量表可以对每一个评分点都提供“标识词”,比如上面的5点同意量表。也可以只对两端,或两端加上如中间点这类你选中的关键点进行语义标识。
那他们有什么区别呢?
由于面对一系列的评分点,不同人可能会对不同点的理解不同,不如同样一个1-7分的量表,有些人把认为优秀的评为4分,有些人会评为6分。用“标识词”可以统一大家对这些评分的看法,在问卷调查时可以一定程度减轻个体差异对问卷结果的造成影响。
然而更为细致的7点及7点以上标度的量表,由于难以用“标识词”准确表述同意程度,且使用细致的标识会让被调查者无法察觉这5个点是等距的,从而让此量表更偏向于顺序数据,而不是区间数据,这样会导致一些信息的遗失。因此只对关键点进行语义标识的做法也比较常见。我们可以根据具体情况进行灵活使用。
2、李克特量表特征和注意事项
通过上面的描述,我们可以发现,李克特项具有两个特征:
①它表达了对一个陈述句的同意程度;
②它使用奇数个选项,因此会允许一个中间选项的存在,即允许被调查者持中立态度。
那么在使用李克特量表时有什么注意事项呢?
由于李克特量表由一系列的陈述句构成,在设计此量表题目的陈述句时,需要非常仔细地遣词造句。通常来说,应该避免在陈述句中使用“非常”、“极端”、“绝对”等比较极端副词,而应该尽量使用未经修饰的形容词。
比如你想让被调查者对网页的美观程度进行评价时,你可以说“我觉得这个网页漂亮”,而不应该说“我觉得这个网页非常漂亮”。因为这样会降低“强烈同意”的可能性,且“非常”和被调查者评价的叠加,会使得测量结果更加难以被衡量,毕竟每个人对“非常”的理解并不相同,相当于叠加了一个不定变量,会直接影响到结果的准确性。
其他注意事项因为和其他类型量表一致,我们在「第三部分」详细说明。
3、李克特量表结果分析
上面说过,李克特量表是由一系列与测量概念相关的李克特项构成的。在调查结果收集完成后,我们会得到被调查者们对一系列的问题的评分。这时候我们一般可以对单一的项进行分析,也可以把一些成组的项的评分累加起来,得出被调查者对这一概念的整体评分,继而进行分析。
(二)语义差异量表
我们也先举一个语义差异量表的例子:
语义差异量表用于测量某种事物、概念或实体在人们心目中的形象,它会在评分条目的两端呈现一堆相反或相对的形容词:如
语义差异量表通常采用7个标度点,也有采用非7个标度点的语义差异量表,如下面的用户界面满意度问卷(QUIS,1988,又名用户交互满意度问卷):
比较特殊的是,这个满意度问卷允许用户选择“NA”,即不对问题进行回答。
除了表述形式不同外,通常情况下,李克特量表可以和语义差异量表互相转化,那么对同一个内容的调查,采用不同量表获得的数据是否有差异呢?
在2006年,有人比较了采用5种不同表述对获取被调查者评分的影响:
实验结果:无论用什么方法,它们对于各个任务的难易程度区分,均与客观变量绩效数据一致。但方法1在小样本量(在只有7个样本时,与总样本数据的相关值达到0.91)时,结果是最可靠的。也就是说在样本量较小时,采用“语义差异量表”比较可能得到更可靠的数值,而在样本量比较大时,采用各个量表无差异。
03、评分量表的一般指导规则
(一)多角度对问题进行细化
从多个角度出发的多个问题对同一个属性,如“对服务的满意度情况”进行测量,我们能得到更加可信的数据。常用的标准问卷常使用这一方法提高问卷的信度,比较典型的是2002年被提出的“有效性、满意度和易用性问卷”,简称USE。
这个标准问卷使用7点李克特量表,评分等级的两端分别是强烈同意和强烈反对。
它选取了有效性、易学性、满意度、易用性4个属性,每个属性从不同角度出发提出了多个问题,其中标黑的那些项对每个属性的评分有更大的权重。
用多个问题得到的评分加合来描述被调查者对一个属性进行测量,很好地提升了问卷的可信度。
也可以使用雷达图更形象和直观地表达USE获得的数据。
在日常设计问卷过程中,我们也可以采用多角度对关键问题进行细化的做法,来提高获取数据的可信度。
(二)选项数目是奇数还是偶数
在上面所举的例子中,选项的数目通常是奇数。那么采用偶数个和奇数个选项数有什么区别呢?
用奇数量表意味着有中立点的存在,例如李克特量表中的“既不同意,也不反对”。在大多数现实情况中,允许被调查者对事物作出中立判断是合理的,因此奇数量表被广泛使用。
而偶数量表意味着用户必须在量表的一端进行选择。被调查者面对一些问题,比如询问满意度的问题,在满意度不高时,由于“社会称许性”可能倾向于选择中立点,即“既不赞同,也不反对”,从而回避对问题的表态。而不包含中间点的量表,“强迫”他们在一端进行选择,比如“1分、2分、3分、4分”,在收到“2分”时,我们就成功捕捉了这个用户不太满意的信号。
设计问卷时,我们可以研究目标灵活使用偶数个选项和奇数个选项的量表。
(三)标度点的个数
我们上面介绍的量表多采用5个或7个标度的量表。表面上看,标度点的个数越多,我们越能精确地识别被调查者的细微态度差别,从而得到更精确的结果。那么评分量表中标度点的个数是否越多越好呢?
文献表明,并非如此,任何超过9点的量表很少能再提供有用的附加信息,因此标准量表或日常使用的量表通常使用5点或7点的评分量表。
而0~10分的11点量表因为能更方便地转化为易于理解的十分制或百分制量表,因此也被广泛应用。
(四)偏差类型及措施
下面介绍几种可能导致量表获取的数据不准确的因素:
1、趋中倾向偏差
趋中倾向偏差是指受测者可能会回避勾选极端的选项。
比如之前在一次调研时,在访谈时被调查者表达了对「公司自用工具网站」的诸多抱怨,但用“5点标度”的李克特量表构成的问卷对各个因素进行测量时,各项的均分都为3分左右,与访谈时用户反映出的态度及通过其他问题侧面反映出的态度(知晓该工具网站、认为网站在销售过程中必不可少,且无可替代产品,但不经常在销售过程中使用该网站)差距较大。
措施:被调查者倾向选择中立,即“既不赞同,也不反对”,是一种不想表态的态度,我们可以采用上面说到的偶数个标度的量表,“强迫”他们在两边作出选择,从而减轻趋中倾向偏差。
2、惯性偏差
比如李克特量表采用的是陈述句,由于对陈述的习惯性认同,可能会导致测量的满意度偏高。
措施:设计的量表可以采用一半正向描述、一半反向描述,这样就能减轻“惯性偏差”对测量结果的影响。比如常用的系统可用性量表(简称SUS,见下图),就采用了正向描述和反向描述交替的方式,确保被调查者在回答问题时注意力不分散,也能很好减轻“惯性偏差”或“逆反心理”的影响。
3、社会称许性偏差
“社会称许性是指在评价时评价者通常会以社会认可的方式作出评价的一种倾向,从而使自己或别人看起来更适合社会需要,它主要表现为“装好”现象。”
它表现为被调查者在面对自我评价的问题时,倾向于塑造更好的自我形象;而在评价其他事/物/人时,为了给人留下好印象,倾向于给“好评”。这会使得我们在调研时无法得到准确的数据。
措施:对于自我测评的问卷,通常会在问卷中夹杂一些“陷阱”问题,用于测量被调查者对该问卷的隐瞒程度,比如“您是否从来没有产生过抱怨情绪”等问题。最后根据所有的“陷阱”问题得分加合,会得到一个隐瞒程度评分,借此来衡量被调查者对此问卷的“曝光程度”及此问卷结果的可信度。问卷得到的各项评分和隐瞒程度评分,共同构成此问卷的结果。
而对于评价其他项的问卷,仅就我目前的经验而言,在开始调研时告知调研目的、匿名无追责风险、表达“接受批评乐于改正”的态度等,会一定程度减轻社会称许性偏差带来的影响。
04、评分量表在问卷设计中的应用
为了更好的对用户体验进行度量,一些用于度量用户产品体验的标准问卷的设计往往会用到评分量表,例如SUS量表、CSUQ量表、QUIS量表等。下面以系统可用性量表(SUS,1996年发布)为例介绍下评分量表在问卷设计中的应用。
(一)SUS量表介绍
下面是SUS量表的十道题:
我们可以根据自己的需要将里面的“系统”一词改成app、网站等,用以测试我们产品的可用性。
仔细看SUS量表,可以发现,它的题型采用了我们上面介绍的李克特量表,而且其中有一半是正向陈述,一半是负向陈述。它是为了能够让参与者在答题时保持足够的警觉且避免“惯性偏差”带来的影响。
(二)SUS分数计算
如何进行SUS分数的计算呢?
计算SUS分数目的是将SUS分数转化为百分制(0~100分),传统SUS量表的计算分为以下几个步骤:
第一步,每个项目的得分在0-4之间,正向陈述题1、3、5、7、9的分数是评分位置减去1;第二步,负向陈述题2、4、6、8、10的分数是5减去评分位置后的得数。第三步,把所得的分数相加得到总分,再将总分乘以2.5,得到总的SUS分数。
(三)使用SUS量表的优势
SUS量表的灵活性显然不如我们自己设计的量表,那么使用SUS量表这类标准问卷比起我们自己设计的量表有何优势呢?
我认为主要有两个:
1、能在样本量较少时得到比较准确的结果。
通常在调研中,我们用被提高调查者的数量来保证调查结果的可信度,这就导致了一些可用性度量往往耗时过长,且消耗了大量人力和物力。
而实验证明,SUS量表是相当灵活有效的,即使在参与者数量相对较少(如8~10人)时也是如此,这就使得这个量表使用起来非常便捷。
2、测量得出的数据更容易被解释。
由于这个标准量表背后有较多前人的实验和研究作为依据,因此得出的数据比起自定义的量表更容易被解释。
例如Bangor等人基于206个使用SUS的研究,对SUS分数做出了以下解释:
- <50:不可接受
- 50~70:临界值
- >70:可接受
也有更加细化的SUS分数的分级情况表:
不但如此,SUS分数也可以用于近似预测客户忠诚度。
基于数据,研究者发现可以简单地将SUS得分除以10来估计被调查者在净推荐值量表(NPS,2003)中的推荐可能性。
例如,SUS得分为72,你可以除以10得到推荐可能性为7.2。
05、总结
上面介绍了什么是评分量表、常用的评标量表类型、使用评分量表的一些准则,并以SUS量表为例介绍了评分量表在问卷设计中的应用,希望对大家设计问卷有所帮助,也欢迎大家批评指正。
发布者:梦醒时分,火焰兔收录并登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不做权威认证,如若验证其真实性,请咨询相关权威专业人士。https://huoyantu.com/30069.html
版权声明:
国家知识产权局《要求删除或断开链接侵权网络内容的通知》填写说明:http://www.ncac.gov.cn/chinacopyright/contents/12227/342400.shtml
请按照此通知格式填写(或提供具有法律效应且证据链完整的证明)发至本站的邮箱 huoyantu@qq.com
(收到核实后 24小时内绝对处理)