编辑推荐:
肺癌(LC)筛查中,低剂量计算机断层扫描(LDCT)存在难以区分良恶性结节及资源有限地区筛查覆盖不足的问题。研究人员开发基于人工智能(AI)的系统及 C-LungRADS 进行结节风险分层,虽取得一定成果,但 AI 系统性能、可解释性和可重复性仍需提升。
在肺癌防治的征程中,低剂量计算机断层扫描(LDCT)本是一把有力武器,能有效降低肺癌死亡率。然而,它却面临着两大棘手难题。其一,在 LDCT 检测中,良性结节极为常见,准确区分它们与恶性结节就像在茫茫沙海中寻找珍珠,困难重重。其二,在资源有限的地区,肺癌筛查的覆盖范围远远不足,许多潜在患者无法及时得到筛查和诊断,这无疑给肺癌的早期发现和治疗带来了巨大阻碍。
为了解决这些问题,来自意大利的研究人员开展了深入研究。他们开发并验证了一种多步骤、多维的基于人工智能(AI)的系统,还引入了数据驱动的中国肺结节报告和数据系统(C-LungRADS) 。该研究成果发表在《Signal Transduction and Targeted Therapy》上,为肺癌筛查领域带来了新的曙光。
研究人员在开展研究时,主要运用了以下关键技术方法:利用深度学习算法,通过构建深度卷积神经网络(DCNN)模型对肺结节进行分析;采用梯度提升回归模型(GBR)整合更多维度的数据。此外,研究使用了来自医学体检队列(MCC)和移动筛查队列(MSC)的大量参与者数据进行模型训练和测试 。
下面来详细看看研究结果:
- C-LungRADS 系统构建与性能评估:C-LungRADS 系统分为多个阶段。Phase 1 主要依据结节大小和密度这些容易获取的特征,识别出低风险结节人群。Phase 2 借助 DCNN 模型,生成基于图像的恶性概率评分,对风险预测进行优化。Phase 2 + 则通过 GBR 模型融入人口统计学、临床数据,以及结节的生长速率、体积倍增时间等信息,进一步细化风险分层,将风险级别划分为低、中、高和极高。经过测试,该 AI 系统表现出色,在内部测试集中,受试者工作特征曲线下面积(AUC)达到 0.918,灵敏度为 85.1%;在独立测试集中,AUC 为 0.927,灵敏度为 85.6%。
- 系统性能的深入分析:虽然从 Phase 2 单维到 Phase 2 + 多维的转变在内部测试集中性能提升明显,但在独立测试集中却并非如此。在选定的操作点上,多维系统的灵敏度显著高于单维系统,然而两者的 AUC 并无明显差异,受试者工作特征曲线(ROC 曲线)也基本难以区分。这可能是由于系统评分校准在训练集而非未知验证集上进行,存在过拟合的风险。而且,研究未明确不同类型结节(如现患结节和新发病结节)的性能差异,也未公开评估 AI 系统性能时作为基准的放射科医生的专业水平 。
- AI 系统的可解释性问题:在评估复杂的 AI 系统时,可解释性至关重要。虽然目前使用的注意力图在一定程度上提供了解释,但作用有限。例如,类激活图仅仅像是输入到 DCNN 的结节分割的扩展版本,对模型决策过程中关键区域(如部分实性结节的实性成分)的解释价值很低 。
- 系统的可重复性问题:对于 AI 系统而言,清晰、详细的文档记录是实现可重复性的基础。但在此次研究中,部分关键步骤描述并不完整。比如,用于停止 Phase 2 DCNN 模型损失函数的内部测试集描述不清,可能存在数据泄露风险。而且,研究人员分享的代码缺少关键组件、确切依赖项以及训练好的 DCNN 模型,这极大地限制了研究结果的可重复性和模型在新病例中的应用 。
综合来看,这项研究意义重大。Wang 等人提出的 AI 驱动方法,为中国人群的肺结节风险分层带来了创新,结合移动 CT 设备,有望扩大肺癌筛查的覆盖范围。然而,要充分发挥 AI 在肺癌筛查中的临床价值,必须解决其可解释性和可重复性方面的挑战。同时,将 AI 系统与评估共病(如心血管疾病相关指标)的功能相结合,能进一步提升肺癌筛查的全面性和有效性,为更多患者的健康保驾护航。未来,在 AI 技术不断发展和完善的过程中,肺癌筛查有望迎来更加精准、高效的新时代。