2021年9月,CDE发布的《患者报告结局在药物另研究中的应用指导原则(征求意见稿)》中明确:
患者报告结局定义为任何来自患者直接报告且不被他人修改或解读的对自身疾病和相应治疗感受的评估结局。
而量表是PRO测量使用较多的工具,主要用于主观测量,如疼痛、生存质量等,但现有量表并不能解决所有的主观测量问题,如某些症状(如恶心)或症状群。
并且首次对于患者报告结局测量量表的研发、翻译、改进给出明确的指导方向。
以下摘录自《患者报告结局在药物另研究中的应用指导原则(征求意见稿)》
临床研究中,一旦确定使用量表测量 PRO,如果尚无适合研究项目的量表,需专门针对研究目的进行研发;如果已有公认的适合研究项目的中文量表,可直接使用;
如果已有公认的适合研究项目的外文量表,需经过研发形成正式的中文版本后使用;如果已有量表并不完全适合研究项目时,需改进后使用。
在已有的成熟量表中如何选择更适合于拟开展的研究项目,需要考虑其科学性和可操作性。
(一)患者报告结局测量量表的研发
量表的研发过程大致为:根据研究目的定义目标人群→查阅文献→构建概念性框架→建立条目池→通过访谈和Delphi法改进概念性框架® 形成量表测试版®预调查→
改进量表测试版→第1轮正式测试→继续改进测试版→第2 (3…)轮正式测试(如需要,直至满足对量表的度量性能要求)→形成正式版本(如图 1 所示)。
量表的研发通常用于有效性评价,也可以针对重要的安全性事件进行研发,其原理和过程是一样的。
1. 构建概念性框架
量表的结构有一级结构、二级结构和三级结构,临床研究中以一级和二级结构较常用。一级结构的量表有单条目量表(如视觉模拟疼痛量表)和多条目量表(如简化版口腔干燥量表)。下面以二级结构量表为例进行阐述。二级结构量表的第一级是维度,第二级是条目。量表概念性框架的初步成型一般基于研发者查阅文献、专家知识和经验以及必要的调研。维度的数量和命名依据对研究内容的理解设定,每个维度下的条目数和条目内容用以体现其所属维度的内涵和重要程度,例如每个条目等权时,维度下的条目数量就体现了维度的重要性。
2. 建立条目池
量表的底层结构是条目,体现具体的设问内容,而维度则是概念性的。为了后续的条目设计,需建立尽可能丰富的条目池,条目的来源可以是所有可能的途径,包括文献、访谈、相关领域的量表研发平台、研发报告、研究者设计,等等。
3. 条目设计
条目设计是量表的核心内容之一。如果条目池足够丰富和成熟,绝大多数的条目一般从条目池中获取,但也会有个别条目由研发者设计。在问题的陈述中,应尽可能采用封闭式问题,避免含混不清的词语、具有双重含义或倾向性引导的问题、双重否定的陈述、以及负面陈述和患者不情愿回答的问题;同时应避免应答的天花板或地板效应,以及一个条目同时问两个以上问题等。在阅读理解方面,尽量使用常用语,对文化水平的要求不宜太高(如具备小学毕业文化程度的阅读能力即可)。
4.标度方法
条目的标度有二分类标度、等级标度(如 Likert 标度)、连续标度(如视觉模拟标度)、图形标度等方法,其中以5级Likert标度法最常用。具体采用几级 Likert 标度要以量表的度量性能达到最佳为标准。
5.访谈和 Delphi 法实施
在研发者初步形成了量表的概念性框架后,首先需要进行专家访谈和/或专家调查,根据专家反馈意见调整概念性框架。专家调查的主要目的是考证结构的合理性、条目表述的准确性、应答的可行性和维度及条目的赋权。维度和条目的赋权是量表研发最为关键的环节。专家调查法(Delphi 法)的实施通常不止一轮,具体多少轮以达到专家意见相对统一为止,特别是在赋权方面。
6.预调查和正式调查
在综合专家意见改进初始的概念性框架后形成量表的初始测试版,继而需要在少量的目标人群中进行测试,然后根据测试结果改进,形成正式测试版。使用正式测试版在目标人群中展开调查,其样本量需根据预调查的参数(如Cronbach a系数)进行估计,正式测试版的改进也是根据相应的测试结果进行调整,其测试的轮次取决于量表度量性能的满意程度。
7. 验证概念性框架
预调查和正式调查都是验证概念性框架的过程。评价概念性框架的适用性主要基于其度量性能,包括信度和效度。
(1) 信度:信度是指在相似条件下所获得的测量结果的一致性,用于评价测量工具的可靠性。
PRO量表常用的信度指标有重测信度、内部一致性信度、测试者间信度和测试者内信度。
重测信度用于评价量表的可重复性,初测和再测之间的相关系数不宜太低(如不低于 0.4)。内部一致性信度用于评价量表的内在一致性,常用 Cronbach a系数评价(通常不低于0.7为宜)
。测试者间信度和测试者内信度分别用于评价测试者间和测试者内的一致性,通常用组内相关系数(intraclass correlation coefficient,ICC)评价,有文献报道认为ICC一致性可划分成0.4为差,0.4-0.75 为尚可,>0.75 为 116 很好。
(2) 效度:效度是指测量在多大程度上反映了想要测量的内容,用于评价测量工具的有效性。
一个好的量表应该既可靠又有效。信度高并不代表效度也高(例如重度抑郁症症状量表用于测量重度抑郁症有较高的信度和效度,而用于测量躁狂症时效度就不高),但信度低的话,效度必然不会高。
量表效度的评价方法很多,以3C方法较为常用,即内容效度(content validity)、标准效度(criterion validity)和结构效度(construct validity)。
内容效度主要基于专家知识和经验主观上判断量表的维度和条目的内容是否合理,是否能正确反映想要测量的内容。标准效度表示研发量表与所谓“金标准”量表的相关程度。
由于金标准通常不存在,且如果存在则研发意义有限(仅在研发量表具有极大的便利性等情况下),因此应用较少。结构效度常通过确证性因子分析方法评估观测数据产生的结构与概念性框架的一致性。
除了上述3C概念外,效度的另一个重要指标是检测变化的能力,又称反应度,即能够灵敏地反映患者结局变化(如干预前后的变化,给予不同干预的反应等)的能力。
8. 撰写量表说明书
为了确保量表的正确使用,应撰写量表使用说明书。量表说明书包括但不限于:目标人群,含引导语在内的完整量表结构,维度和条目的赋值以及量表的计分规则,度量性能,有效应答的规定,缺失数据的处理,回忆期限(如涉及)等。
(二) 用于患者报告结局测量量表的翻译和/或文化调适
临床研究中用于PRO测量的原研量表如果为外语,通常需要翻译成中文后才能应用。原研量表的某个或某几个条目如果因为文化方面的差异而无法被患者理解或难以获得有效配合时,还会涉及文化调适问题。
量表的翻译和/或文化调适是否恰当,要以翻译和/或文化调适后的量表与原研量表的度量性能是否相近为衡量标准。量表的翻译和/或文化调试可按以下步骤进行:
(三)患者报告结局测量量表的改进
当已有量表并不完全适合研究项目时,应改进后使用。例如,经早期(如II期)临床试验数据分析,所用量表不满足研究所需的信度和/或效度,则在III期开展之前需对量表进行改进或研发新的量表,以确保 III 期试验所用量表具有足够的信度和效度。
下一期的量表专题,我们将关注在研究项目中量表的选择与评价,敬请关注!