技术亮点

研究背景

LDCT技术能够减少辐射暴露,但是也不可避免的导致了图像中噪声和微影增多,影响医生对病情的正确判断。

针对LDCT技术在医学诊断中存在噪声问题,也有了很多相关研究。大体可以分为有监督和无监督学习,但是以往的降噪方法具有局限性,其中无监督方法往往泛化性能差,降噪效果有限;有监督方法需要成对的数据集,因此其应用效果有限。

[image] (pdf)
(Tang 等, 2024, p. 2)

(a) 完全监督降噪:使用gt来约束网络的训练,即网络通过已知的“干净”图像与“噪声”图像对进行训练,进行降噪。

(b) 自监督降噪:利用网络的输出结果来重新训练和约束网络,在这种设置中,网络使用自身生成的预测结果作为“自监督信号”,进行降噪。

(c) 无配对降噪:使用未配对的噪声图像和清洁图像,通过生成伪清洁和伪噪声图像来进行训练。这种方法无需依赖配对数据,而是通过合成伪数据进行训练。

(d) 本文提出的DANRF:仅使用未标记的目标数据和一个预训练的源模型来训练目标模型。目标模型在没有真实标签的情况下,通过从源模型学习知识,进行降噪训练。

相关工作

知识蒸馏

Mean teacher mechanism

域自适应

解决由数据集偏差引起的源域与目标域之间性能下降的问题。

在医学图像分析领域,重新训练一个模型以适应目标域需要大量标注的数据,这是一个负担对临床医生来说。更符合现实情况的方法是通过迁移学习或域自适应方法,将源域的网络模型增强到目标域。

具体方法

域自适应降噪框架DANRF

本文提出的DANRF框架如下,左边是IKT,右边是SGL框架。

target model和source model 的主干网络都是U-net,

[image] (pdf)
(Tang 等, 2024, p. 4)

Iterative Knowledge Transfer(IKT)模块

由于临床场景下很难获得目标域的“干净”标签数据,本文提出一种知识迁移方法:先在模拟数据集上预训练出一个高质量的源域教师模型,再借助知识蒸馏的思想,让目标域模型在无监督的条件下向该教师模型学习,以提高其初始降噪能力。其中该过程是最小化如下损失

[image] (pdf)
(Tang 等, 2024, p. 4)

其中L1损失强制目标模型生成与伪标签相似的输出。Frobenius距离鼓励目标编码器生成与源编码器生成的高层特征相似的特征。

“The L1 loss forces the target model to produce an output similar to the pseudo labels. And the Frobenius distance encourages the target encoder to create a high-level feature that is similar to what the source encoder generates.” (Tang 等, 2024, p. 4) (pdf)

但实际应用时,由于源域模型训练数据的风格可能与目标域存在较大差距,直接应用会导致降噪结果过度平滑,关键组织细节丢失。因此论文进一步引入“平均教师机制”(Mean Teacher机制),让源域模型在训练过程中不断地从目标域模型上缓慢地汲取新知识,从而逐渐适应目标域图像特征,提高对目标模型的指导能力。

这一过程中源模型也会慢慢更新:

[image] (pdf)
(Tang 等, 2024, p. 4)

(我感觉这一过程类似于一个有经验的导师在指导新手时,自己也不断学习适应新情况,以更好地给学生提供有效的指导。)

Style generalization learning模块(SGL):

这个模块的设置目的希望模型更加强大,特别是训练样本有限的情况下。

该模块的具体实现方式为:利用原始目标域数据合成若干个风格与之相似但又存在细微差别的图像,作为数据增强样本纳入训练,以丰富训练数据集的风格多样性。

论文通过内容损失与感知损失,引导合成的图像在保持原始内容的同时呈现出微妙不同的噪声特征,避免了单一风格训练带来的模型过拟合问题。

[image] (pdf)
(Tang 等, 2024, p. 4)

[image] (pdf)
(Tang 等, 2024, p. 5)

降噪过程是优化以下最小化损失

[image] (pdf)
(Tang 等, 2024, p. 5)

通过上述两大模块的交替迭代训练,不断地引导目标模型逐步适应临床实际环境,最终实现有效的跨域噪声降低。

实验

为了验证DANRF的实际效果,作者进行了大量的对比实验和分析:

数据集

有多个

主要数据集

“AAPM-Mayo Clinic dataset” (Tang 等, 2024, p. 5) (pdf)

  1. 包含5936对配对的LDCT-NDCT切片。
  2. 从中选择L286和L506号患者的1051对图像作为测试集。
  3. 其余的4885对图像作为源域训练集。

其他数据集

“method proposed in Li et al. (2023)” (Tang 等, 2024, p. 5) (pdf)

  1. 来自Minfound公司18位患者,随机选取2000张正常剂量CT切片(100~150 mA),生成配对图像(模拟低剂量)。
  2. 切片尺寸为512×512。
  3. 数据集划分:80%用于训练(1600张),20%用于测试(400张)。

“Minfound.” (Tang 等, 2024, p. 5) (pdf)

  1. 第一个Phantom:

    • 3种剂量水平:低剂量(30 mA、50 mA),正常剂量(240 mA)。
    • 每种剂量体积包含279张512×512的切片。
  2. 第二个Phantom:

    • 包含256张512×512切片,低剂量体积为50 mA和30 mA,正常剂量为240 mA。
  3. 数据集划分:训练切片数共计535张,测试共计214张。

“Siemens” (Tang 等, 2024, p. 5) (pdf)

  1. 包含来自45位匿名患者的4257张真实扫描切片(65 mA)。
  2. 切片大小为512×512。
  3. 数据集划分:3406张用于训练,851张用于测试(8:2比例)。

实验参数

模型结构

  • 网络模型采用U-Net(Ronneberger等, 2015)结构,包括目标模型(φ_t)、源模型(φ_s)和图像合成网络(φ_p)。

优化器及学习率

  • 使用带指数衰减的Adam优化器进行优化,参数:

    • β1 = 0.9,β2 = 0.999;
  • φ_s预训练阶段:

    • 初始学习率为 1.0×10−41.0 \times 10^{-4}1.0×10−4,每15个epoch衰减一次(衰减系数0.5),共训练60个epoch。
  • φ_t 和 φ_p训练阶段:

    • 初始学习率设为 5.0×10−55.0 \times 10^{-5}5.0×10−5,每15个epoch衰减一次(衰减系数0.5),共训练60个epoch。

批量大小与训练策略

  • 目标模型(φ_t)同时处理原始输入和合成的图像,批大小设为2。
  • 图像合成网络(φ_p)仅处理原始输入数据,批大小设为1。
  • 两个网络迭代次数保持一致。

训练设备

  • 使用单块NVIDIA RTX 4090 GPU进行训练。

损失函数参数

  • 内容损失权重 ω_content = 0.01;
  • 风格损失权重 ω_style = 1;
  • 平均教师机制的参数(α)设定为0.999。

评估指标

  • 峰值信噪比(PSNR)
  • 结构相似性指数(SSIM)
  • 均方根误差(RMSE)

实验结果

实验结果显示,传统监督方法如RED-CNN、WGAN-VGG等在跨域使用时因数据差异巨大而效果不佳,表现为图像明显过度平滑,细节丢失严重。而纯无监督或自监督方法如B2U、NBR2NBR虽然直接适用于目标域,但由于对噪声特征的理解不足,容易留下大量伪影,无法满足实际诊断要求。

本文所提的DANRF框架在各个数据集上取得了最佳性能,不仅能够明显减少图像噪声,还能够很好地保留重要组织结构的细节信息,达到了更加适合临床实际应用的要求。

[image] (pdf)
(Tang 等, 2024, p. 6)

消融实验

单独移除EMA机制或SGL模块都无法达到理想效果,只有将教师模型、EMA机制和风格泛化学习三者协同应用,才能获得显著且稳定的性能提升,这说明本文设计的模块确实具有协同作用。
[image] (pdf)
(Tang 等, 2024, p. 8)

泛化性能分析

实验验证表明,无论换用RED-CNN还是DnCNN作为基础结构,该框架依旧能大幅提升降噪效果,这说明本文提出的框架具有很强的模型泛化性和通用性。

[image] (pdf)
(Tang 等, 2024, p. 9)

源域数据的影响

迭代次数分析

计算复杂度分析

DANRF框架使用了U-Net作为基本骨干网络,虽然参数量较大,但计算量(FLOPs)和推理时间处于可接受范围内,完全适用于临床实时应用需求。

失败案例分析

[image]

“Minfound Phantom dataset” (Tang 等, 2024, p. 11) (pdf) 出现了过度平滑化,出现过渡降噪的显现

未来的改进方向

  • 由于源域数据选择的重要性,作者指出在未来的研究中,需要开发或寻找更加贴近实际临床图像风格的数据集,进一步提高模型的泛化能力和临床适用性。
  • 同时,目前方法基于二维图像处理,未来可以扩展到三维CT图像,以更好地满足实际诊断应用的需求。