第二节 数据的质量与标准

一、卫生健康领域相关标准概述

目前,监督学习广泛应用于人工智能医疗器械,客观上需要一大批具有参考标准的高质量数据集,为研发、测试活动提供依托。医院、高校、科研机构、监管机构、医疗器械检测机构等社会各方力量都在投入数据集建设。为了保障数据集的质量,社会各方需要充分了解数据的质量与标准,对数据集的设计输入、过程组织、质量控制、质量评价提供规范。本节对国内相关标准规范进行调研和总结,为业内提供参考信息。

临床机构是数据采集的主要场所,是把控数据质量的第一道关口。近年来,国家卫生健康委员会从顶层设计的角度重视加强健康信息系统、电子病历、互联互通、数据共享的建设与标准化,陆续发布了《关于加强全民健康信息标准化体系建设的意见》(国卫办规划发〔2020〕14号)、《关于印发公立医院高质量发展促进行动(2021—2025年)的通知》(国卫医发〔2021〕27号)、《国家卫生健康委办公厅关于印发医院智慧管理分级评估标准体系(试行)的通知》(国卫办医函〔2021〕86号)等文件。临床机构在数据库和信息系统开发方面依从的卫生健康行业规范,对人工智能医疗器械数据集建设具有重要影响。

在数据库与信息系统建设方面,我国围绕临床数据的录入、管理、数据元、元数据等环节形成了一批行业标准,例如WS 363《卫生信息数据元目录》系列标准、WS 364《卫生信息数据元值域代码》系列标准。WS 363《卫生信息数据元目录》分为十七部分,例如总则、标识、人口学及社会经济学特征等,技术内容包括卫生信息数据元目录内容结构、属性与描述规则、数据元目录格式和数据元索引的编制规则等。WS 364《卫生信息数据元值域代码》也分为十七个部分,与WS 363的各部分之间有对应关系,技术内容包括卫生信息数据元值域代码标准的数据元值域的编码方法、代码表格式和表示要求、代码表的命名与标识等。

在数据集通用领域,现有卫生行业标准围绕数据集的分类框架、编码规则、元数据内容、结构、属性、索引等通用问题等开展工作,例如WS 370—2012《卫生信息基本数据集编制规范》、WS/T 305—2009《卫生信息数据集元数据规范》、WS/T 306—2009《卫生信息数据集分类与编码规则》等标准。

在数据集专用领域,国内现行标准包括WS 372《疾病管理基本数据集》系列标准、WS 374《卫生管理基本数据集》系列标准、WS 445《电子病历数据集》系列标准、WS365—2011《城乡居民健康档案基本数据集》等,旨在规范特定主题下的数据集内容、编码、标识符、数据元属性、元数据属性等具体问题。

在数据安全领域,我国发布了GB/T 39725—2020《信息安全技术健康医疗数据安全指南》。该标准给出了健康医疗数据控制者在保护健康医疗数据时可采取的安全措施,适用于指导健康医疗数据控制者对健康医疗数据进行安全保护,也可供健康医疗、网络安全相关主管部门以及第三方评估机构等组织开展健康医疗数据的安全监督管理与评估等工作时参考。

二、AI医疗器械数据集通用要求

数据集在人工智能医疗器械的全生命周期发挥着重要作用。在产品的研发阶段,算法的训练、调优、定型均需要大量的训练样本做支持。产品上市前的验证和确认活动,需要建立独立的测试集、临床试验数据集。产品临床部署后,日常质控环节需要建立数据集用于评估算法性能是否发生变化、是否可重复。产品上市后监督检验、更新再评价等活动也需要建立专用的数据集。

人工智能医疗器械的数据样本来源较为广泛,包括医院、体检机构、第三方医学实验室、科研机构、公共卫生筛查项目等渠道。无论是医院信息系统自动导出的数据,还是人工方式收集整理的数据,均需要开展必要的开发、质控、管理活动,转化封装为数据集,方可交付用户使用。

数据集的质量合规性是人工智能医疗器械全生命周期监管的重要话题之一,也是人工智能医疗器械标准化的重要方向之一,已被列入“十四五”标准体系规划。全国人工智能医疗器械标准化技术归口单位在2020年起草了医疗器械行业标准《人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求》,在2021年起草了医疗器械行业标准《人工智能医疗器械 质量要求和评价 第3部分:数据标注通用要求》,对数据集的质量合规性评价提出了通用的解决方案。

《人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求》在起草过程中综合调研了信息技术领域的数据质量相关标准(例如GB/T 25000.12—2017、GB/T 25000.24—2017)和临床试验数据管理、临床数据核查的相关文献,根据人工智能医疗器械的监管与产业现状,把数据集定位成“特殊的产品”,提出了数据集的说明文档要求、质量要求,以及质量符合性评价方法。从术语定义的角度,该标准提出了“数据集制造责任方”的概念,即“对数据集的设计和制造负有责任的实体”,明确了标准的执行主体。人工智能医疗器械的数据集制造责任方可能来自产学研用各个领域,在本标准的框架下规范数据集的质量。

数据集的说明文档是对数据集的系统描述,同时为质量评价提供依据,旨在帮助数据集的用户、监管方充分了解数据集,角色类似于医疗器械的说明书。具体内容包括数据集的分类、基本信息、应用场景、数据元属性、元数据属性、标识、质量特性描述等方面。数据集说明文档是否全面、清晰、准确,影响用户对数据集的利用程度。

数据集质量要求具体提出了十七种数据质量特性,对其含义进行了举例说明,为数据集质量评价提供了通用的判断依据。这些质量特性可分别下沉到数据集生存周期的不同阶段,包括数据采集、数据清洗、数据标注、数据访问与使用、过程管理与追溯等活动,从不同侧面反映数据集的质量水平。

数据集的质量符合性评价包括对数据集说明文档的检查、数据集质量特性的评价、数据集风险管理文档三部分内容。其中的重点是对十七种质量特性开展质量评价,具体包括抽样检验、操作检查、过程验证等方式。抽样检验采用质量监督抽验的思路,根据各质量特性对应的具体指标制定抽样方案,根据试验结果判定统计意义上是否通过。同时,质量符合性评价还包含对数据集风险管理文档的检查,客观上提醒数据集制造责任方关注对数据集偏倚风险的控制。

三、医学影像与医学文本数据质量要求

为了适应医学影像人工智能产品的发展需要,医学影像数据集制造责任方需要对医学影像、影像报告文本等基础数据模态给出明确的要求,作为数据集建设的设计输入。医学影像自身的质量要求,一方面需要依托客观、定量的参数,例如图像的分辨率、信噪比、对比度、均匀性、梯度等;另一方面需要建立主观、定性的评级,例如利克特量表的方式,由医生对图像质量进行判读,确定临床接受度。

1.医学影像的质量受成像设备、采集条件、人员操作等因素共同制约,需要考虑以下情况:

(1)成像设备:医学影像数据集的建设过程,与医学影像人工智能产品的临床试验有相似之处,可采用前瞻的形式扫描新的数据,也可以采用回顾的形式收集历史数据。前提条件是成像设备自身有效。数据集制造责任方可以通过查阅成像设备的医疗器械注册证、校准/计量证书、期间核查记录、实验室比对等方式确认设备的状态,也可以依托业内公认的体模和操作规程开展成像试验和人工判读,作为客观证据。为了确保数据质量满足数据采集的要求,数据集制造责任方需要限定成像设备的技术指标,例如CT设备要求不低于64排、MRI设备要求场强不低于1.5T等。

(2)采集条件:医学影像的采集条件对数据质量、数据特征的影响比较显著,也需要重点关注。按照时间顺序,首先关注成像前的准备阶段,例如向患者注射对比剂、药物的种类、浓度、时间、心率控制要求等。其次关注成像设备的参数设置,例如CT设备的管电压、管电流、曝光时间、成像视野、重建层厚、层间距、重建间隔、重建算子等。

(3)人员操作:数据集制造责任方需要对成像设备操作人员进行管理,对其资质、从业年限、操作熟练程度提出要求,组织必要的培训和考核(例如如何进行患者摆位、如何根据患者个体差异进行成像参数设置),确保人员操作的正确性、一致性。

2.在建设医学影像数据集的过程中,医学影像报告常常作为数据来源之一,其中文本数据的质量也需要受控,包括数据的脱敏、清洗、查重。

文本质量的评估,需要关注准确性、完备性、一致性、格式有效性等维度。

(1)文本数据的准确性:首先,体现在名词术语、逻辑关系层面,需要按照医学标准规范、专家共识和其他公认的文献使用技术名词,描述影像学特征与临床诊断之间的关联。其次,数据集制造责任方应确保入库的数据与医院的原始数据吻合,避免出现数据的篡改、丢失等情形。

(2)文本数据的完备性,指的是报告内容充分覆盖各种要素,例如包括受检者标识信息(例如编号、性别、年龄)、临床初诊信息(例如病历报告号)、检查要求或目的、检查部位和名称、检查设备、技术和方法、放射学表现(是否发现阳性、具体征象)、放射学诊断、检查时间、签发报告的时间。

(3)文本数据的一致性,指的是文字描述与诊断结论之间、文本内容与影像特征、历史记录或其他数据之间不存在矛盾,共同支持报告的结论。当影像报告在数据集的建设过程中进行流转,例如在采集、清洗、标注、存储、调用各个环节之间流转,流转过程不应影响报告内容。

(4)文本数据的格式有效性:指的是结构、字段、编码等格式符合相关要求。在结构方面,例如采用两段式描述的方式,分别对应影像信息的具体描述、报告诊断结论。在字段方面,例如对日期的表示可能采用“年-月-日”或者“月-日-年”。此外,文本数据尽量采用清晰、无歧义的语言,避免文本内容造成数据集用户困惑,甚至产生不同的理解。

(王浩)