全球首个AI双盲随机对照试验发布，Wision A.I.为医疗AI界带来哪些参考？|界面新闻

文｜动脉网

在医疗AI领域，全球发布的随机对照临床试验（RCT）目前有且仅有5个，这其中的第一个，也是规模最大的一个，是来自四川省人民医院和哈佛医学院于2019年2月发表在国际前沿期刊《GUT》【IF=17.06】上的一篇关于中国内窥镜影像辅助诊断企业Wision A.I.的计算机辅助结肠镜检出息肉和腺瘤的随机对照研究论文1。

作为医疗AI全领域的第一个随机对照试验，该论文获得了《GUT》期刊优秀论文第三名、全网论文发布排行榜Top1%的史上最佳以及Top1%的本刊最佳和Top1%同期最佳的殊荣。

时隔一年，Wision A.I.又为医疗AI领域创下了另一个NO.1。2020年1月在《柳叶刀》消化子刊【IF=12.26】上刊出了四川省人民医院和哈佛医学院的关于Wision A.I.肠道癌前病变检测产品EndoScreener的双盲随机对照试验2，这成为了医疗AI界的全球首个双盲RCT，在业界引发强烈反响。

美国医学院院士、著名“世纪医生”Eric Topol博士在其个人Twitter上转发《柳叶刀》该篇论文，宣布这是全球医疗AI领域的第一个双盲随机对照试验，不是来自放射、病理、皮肤科或眼科，而是来自消化内镜领域。这也是第一个经受住了双盲随机对照考验的AI技术。

Eric Topol博士2月5日在个人Twitter上的发文

Wision A.I.成功使用双盲RCT来测试AI系统，这无疑是临床验证级别的又一个巨大提升，并为全球其他AI辅助诊断领域的临床验证方法提供了双盲设计的参考。此前，AI技术首次被纳入欧洲消化内镜临床指南作为初步推荐时，其主要依据也是Wision A.I.进行的临床试验。

医疗AI双盲试验的临床价值

双盲——Double Blind，顾名思义是要将研究对象和研究者都“盲掉（Blind）”，让双方都不了解试验的分组情况，而由研究设计者来安排和控制全部试验。这种实验设计能够消除可能出现在实验者和参与者意识当中的主观偏差和个人偏好。双盲试验属于最高科学标准的试验之一，在临床新药研发中应用非常广泛，但是医疗AI领域却一直由于双盲设计困难等诸多原因缺乏双盲RCT。

在医疗AI的临床试验上，大多数研究都是将AI对于医生诊断出的疾病的识别率等数据作为AI性能的临床证据。但这种研究的结果严谨地来说，只能证明AI辅助诊断系统（CAD）能够自主检出相关疾病，对于该系统对医生实际的帮助和影响并未进行严格的科学论证，以至于医生是否受益于CAD也有待商榷，所以业界曾有媒体诟病美国FDA在批准AI产品时不够慎重3。

最直观的表现在于，当内镜医师知晓有AI辅助参与医学诊断时，可能出现因竞争精神而更专注，或因依赖AI系统而放松等非正常诊断时的状态，这部分变量存在的可能性也就导致了非盲法临床试验并非最严谨的验证方法。

如何摒除参与者（医生）意识当中的主观偏差和个人偏好呢？参照新药研发中临床双盲试验的安慰剂对照组，Wision A.I.与国内外的专家一起设计了一套“盲法”来测试AI辅助诊断系统的效用。

如何设计医疗AI的双盲试验？“伪装AI系统”+“引入第二观察者”双管齐下

要进行医疗AI的双盲实验，其关键在于如何成功地把AI辅助的医生“盲掉（Blind）”？这是Wision A.I.对医学AI界的一个贡献——该公司设计了一套有伪装AI系统参与的双盲试验方法，这套方法亦可以推广到全医学领域的辅助诊断软件CADe或者CADx软件中。

让医生进行临床诊断时不清楚自己是否有AI辅助，这是双盲试验的一个核心。既不能让医生猜测到使用的系统是什么，也不能让医生的心态受AI系统参与的影响。这在全球范围内没有先例可以参考，四川省人民医院和哈佛医学院的数位专家经过长时间的讨论，最终确定了Wision A.I.肠道癌前病变检测产品EndoScreener的双盲测试雏形。

动脉网采访了Wision A.I.的创始人刘敬家，尝试从他的口中还原双盲试验设计的始末。“‘盲法’试验的核心在于：

其一，引入伪装的AI系统，与真AI系统一并随机化提供给受试者；

其二，设置忠于系统的中间人角色（第二观察者），按照试验原则，把真AI或伪AI的实时识别结果通过激光笔或提前设计的语法提示给操作医师。”刘敬家向记者介绍道。

与非双盲RCT相比，Wision A.I.的双盲试验加入了两个核心要素“伪装的AI系统”和“第二观察者”，如何理解？

Wision A.I.在临床实验开始之前，就设计了一套伪装的AI系统，该系统不会提示真实的癌前病变，并且保证和真的AI系统拥有相同超低的误报率，以此来防止内镜医师主观判别出真假系统。

在四川省人民医院草堂分院的内镜中心，Wision A.I.招募了1046名年龄在18岁至75岁之间的病人进行结肠镜诊断和筛查，并在排除患有炎症性肠病、结直肠癌、结直肠手术史或有活检禁忌等无效样本的病人后，将剩余的有效样本随机分为两组，最终真AI系统组有484例病人、伪AI系统组有478例病人纳入分析。

真AI系统组与伪AI系统组的病人不知道自己所处的分配组别，四名高级内镜医师在对这些患者样本进行常规的白光结肠镜检查时，如果宣布找到了息肉，那么真AI系统与伪AI系统都会沉默；但如果内镜医师视野范围内出现了息肉，并且在息肉将要移出视野范围时还未宣布发现此息肉，那么真AI系统就会发出提示，伪AI系统保持沉默。

这里值得一提的是，为了防止内镜医师直接使用真/伪AI系统从而观察出AI系统的不同，Wision A.I.引入了第二观察者的角色。第二观察者最直接的作用是能够在专门的显示屏上看到真AI系统或伪AI系统的每一次输出结果（内镜医师不可见），并将其传达给内镜医师；当内镜医师即将远离有系统提示的区域的视野范围时，第二观察者会使用激光笔提示内镜医师系统检测到的区域以便其观察。

保证近似且一定低频的误报率，能够让医生在得到第二观察者激光笔提示后，无法区分出提示系统的真伪，获得提示的医生会再次观测被提示区域，如果该区域医生观察后发现依旧没有息肉则继续退镜，如果医生观测后发现了息肉则计入统计。

这里值得一提的是，如何保证伪AI系统输出的每一个结果都不是真实的癌前病变？这其实也是系统设计的一大难点，刘敬家介绍了Wision A.I.创新的一种双模型强弱相减的方法，就保证伪AI系统只会对息肉样非息肉结构（例如气泡、粪便、未消化的残渣和皱缩的黏膜）提示。

“简单的理解，就是伪AI系统输出的结果的概率是将真AI系统识别的概率图与一个事先研发的弱AI系统（敏感度特异度都远低于真AI系统）的概率图相减而来，同时通过调整阈值保证了伪AI系统的特异度更接近真AI系统。”刘敬家解释道。

AI辅助结肠镜检查双盲试验结果：腺瘤检出率（ADR）和息肉检出率（PDR）显著提升

在结肠镜检查中，发现和切除腺瘤性息肉是降低结直肠癌发病率和死亡率的最有效方法，而结直肠癌是导致死亡的主要癌症之一。根据《新英格兰医学期刊》中相关论文显示，每提升1%的腺瘤检出率（ADR），就会降低3%的间期结直肠癌患病风险。

ADR的提升能够有效预防结直肠癌，这也成为了结肠镜检查的主要质量标准。高ADR的内镜医师更能帮助患者，人们也通过尝试改进内镜硬件技术、肠道准备方法和观察方法以此来提升提高结肠镜检查中的ADR值。

然而，由于各种原因，即使在美国、日本等发达国家，目前临床上仍有多达27%的腺瘤性息肉被漏诊。

在Wision A.I.此次进行的双盲随机对照试验中，结果显示在肠道癌前病变检测产品EndoScreener的帮助下，真AI系统组的ADR明显高于伪AI系统组：在CAD系统实验组（真AI系统组）的484例病人中，有165例病人（34％）检测到有一个或多个腺瘤；而在使用假提示系统对照组（伪AI系统组）的478例病人中，有132例病人（28％）检测到有一个或多个腺瘤。

Wision A.I.双盲RCT试验检测结果

在息肉检出率（PDR）方面，CAD系统实验组的PDR明显高于假提示系统对照组，在假提示系统对照组的478名病人中，有176名（占37％）检测出了息肉；在CAD系统实验组的484名病人中，有252名（占52％）检测出了息肉。

在结肠镜检查中，假提示系统对照组平均每次发现0.38个腺瘤、0.64个息肉，CAD系统实验组平均每次发现0.58个和1.04个息肉，无论从ADR值还是从PDR值上看，Wision A.I.的肠道癌前病变检测产品EndoScreener参与的结肠镜检查能够显著提升内镜医生的检出率。

试验数据结果中还有值得提示的一点，在真AI系统辅助下有159个病例被内镜医生漏掉，而这部分病例通过让经验丰富的内镜医生（未参与临床试验）再次回顾性测试后，发现医生们的敏感度和特异度依旧不高，表明容易漏掉息肉的问题不能简单地由额外的人类观察者来解决，这也证明了在实际的临床环境中CAD系统可能在辅助内镜医师方面发挥更好的作用。

真实严谨的临床实验，是支持相关AI产品落地的第一步。Wision A.I.始终坚持临床循证医学的路线，此次试验所用的EndoScreener系统已经经受了数个临床试验的检验，但该系统训练样本仅仅是5000多张的内镜图片，其中约一半是阴性样本，在目前医学图像识别领域里，高成本数据获取、复杂数据标注的背景下，小样本量深度学习的优势愈加明显。

参考资料：

【1】Wang P, Berzin TM, Glissen Brown JR, et al. Real-time automatic detection system increases colonoscopic polyp and adenoma detection rates: a prospective randomised controlled study. Gut. 2019; 68:1813-1819

【2】Wang P, Liu X, Berzin TM et al. Effect of a deep-learning computer-aided detection system on adenoma detection during colonoscopy (CADe-DB trial): a double-blind randomised study.Lancet Gastroenterol Hepatol. 2020 Jan 22. pii: S2468-1253(19)30411-X. doi: 10.1016/S2468-1253(19)30411-X. [Epub ahead of print]

【3】https://khn.org/news/a-reality-check-on-artificial-intelligence-are-health-care-claims-overblown/

【4】Corley D A, Jensen C D, Marks A R, et al. Adenoma detection rate and risk of colorectal cancer and death. N Engl J Med 2014; 370:1298–1306

【5】Wang P, Xiao X, Glissen Brown JR, et al. Development and validation of a deep-learning algorithm for the detection of polyps during colonoscopy. Nature Biomedical Engineering 2018;(2):741–748