高光谱成像结合机器学习模型用于不同原发灶头颈部转移瘤的鉴别诊断

更新时间：2026-06-24

点击次数：19

应用方向：高光谱成像技术（HSI）通过在像素级同时获取空间信息与连续光谱信息，能够反映组织在细胞和分子层面的生物学差异，为复杂疾病的精准识别提供了新的技术路径。基于该文献的研究结果，HSI 在医学领域，尤其是在肿瘤诊断与分型方面展现出广阔的应用前景。通过捕获组织在光谱层面的差异特征，实现对形态学上高度相似病变的有效区分，从而弥补传统影像学和病理诊断在信息维度上的不足。此外，结合机器学习与集成学习方法，HSI 能够支持构建高精度、低误诊率的智能诊断模型，提升复杂临床场景下的诊断效率与一致性。总体而言，高光谱成像技术与智能算法的深度融合，有望推动医学影像诊断由经验依赖型向数据驱动型转变，为精准医学和智能医疗提供重要技术支撑。

背景： 头颈部转移性肿瘤（MTHN）通常提示肿瘤已处于进展期或晚期，其原发灶来源复杂，不同原发肿瘤在治疗方案和预后评估上存在显著差异。因此，快速、准确地判定头颈部转移肿瘤的原发部位对于制定精准治疗策略具有重要临床意义。然而，当前 MTHN 的诊断主要依赖影像学检查和病理学分析，前者对微小病灶敏感性有限、易发生误诊，后者虽为金标准，但存在取样误差、主观性强且诊断周期较长等问题，难以满足临床对高效、客观诊断的需求。近年来，机器学习与深度学习方法在医学影像分析中展现出良好潜力，但现有研究多集中于单一肿瘤类型，且受限于传统成像手段信息维度不足，*型对不同原发来源肿瘤的判别能力和泛化性仍有待提升。高光谱成像（HSI）能够在像素级上获取空间信息与连续光谱信息，反映组织在细胞和分子层面的生物学差异，为肿瘤类型区分提供了更丰富的信息基础。因此，将高光谱成像与机器学习方法相结合，构建高性能、鲁棒性的分类模型，用于头颈部转移性肿瘤不同原发部位的快速识别，成为当前亟需解决的重要研究问题之一。

作者信息：李玮，山东大学控制科学与工程学院，硕导

期刊来源：Journal of Biophotonics

研究内容

通过采用 Stacking 方法对多个结构相对简单的机器学习模型进行集成，有效增强了模型对光谱特征波段中蕴含的生物学信息的挖掘能力，从而提升了模型学习过程的稳定性和分类判别的可靠性。本研究为 MTHN 类型的临床快速诊断及相应治疗措施的制定提供了一种可行且有效的技术解决方案。

实验设计

本研究收集了山东第一医科大学附属肿瘤医院存档的208张苏木精-伊红（HE）染色病理切片，于20倍放大倍数下进行图像采集。所用头颈部转移性肿瘤（MTHN）样本来源于六种常见原发恶性肿瘤：肺腺癌（LAC）、鼻咽癌（NPC）、乳腺癌（BC）、食管鳞状细胞癌（ESCC）、胃肠道腺癌（GIAC）及甲状腺乳头状癌（PTC）。样本依据原发灶来源进行分型标记：0型代表NPC，1型代表LAC，2型代表PTC，3型代表BC，4型代表ESCC，5型代表GIAC。

采用线扫描推扫式高光谱成像系统（GaiaMicro-V10E-DY，江苏双利合谱科技有限公司）在荧光模式下采集MTHN样本的高光谱图像。该系统由覆盖400–1000 nm光谱范围（256个波段）的光谱仪、空间分辨率为1392×1550像素的高性能sCMOS相机、显微镜及一体化移动平台组成。HSI系统的图像采集与分析原理如图1所示。

图1 高光谱成像系统结构示意图

研究方法

不同原发灶来源的头颈部转移性肿瘤（MTHN）蕴含独特的生物标志物信息，可被HSI系统捕获并以光谱数据形式呈现，供进一步分析。基于此，本研究采用主成分分析（PCA）和盲源分离-主成分分析（BSS-PCA）方法进行光谱波段筛选。在Stacking集成学习框架下，选用支持向量机（SVM）和轻量级梯度提升机（LightGBM）作为基学习器，随机森林（RF）作为元学习器，构建了高性能分类模型MTHN-SC（头颈部转移性肿瘤堆叠分类器）。随后，应用SVM、LightGBM、MTHN-SC、ResNet50和FastGRNN模型对筛选后的光谱波段数据进行分类，建立了兼具高精度与强鲁棒性的MTHN诊断流程（图2）。

图2 研究方法流程图

对于SVM，通过引入核函数， SVM能够高效处理复杂的非线性分类任务，本研究在 SVM 模型中采用径向基函数（RBF）核。通过网格搜索方法对 RBF 核的相关参数进行了优化选择。此外，本研究中的 LightGBM 模型采用基于梯度的贝叶斯优化方法，自动确定*优的决策树节点数量，并使用基于梯度提升决策树（GBDT）的提升策略进行模型构建。ResNet50和FastGRNN模型添加了dropout和L2正则化策略。

对于MTHN-SC，本研究在 Stacking 框架的第一层采用了基于RBF核的SVM和基于GBDT的 LightGBM 作为基模型，在第二层选用了随机森林作为元模型。Stacking 集成模型的整体结构如示意图所示。图 3 展示了 MTHN-SC 模型的详细结构，体现了基模型（SVM 和 LightGBM）与元模型（随机森林）之间的集成关系。

图3 MTHN-SC模型结构示意图

结果

本研究对MTHN样本病理切片的HSI光谱曲线进行了反射率校准。图4直观展示了病理切片HSI数据经校准处理前后的对比效果。反射率校准通过将原始数字图像数据转换为反射率值，显著提高了对病理组织细微光谱变化的检测敏感性，使各类组织间的光谱差异在校准后的数据中更为凸显。

图4 HSI反射率校准流程。(a) HSI相机采集的LAC病理切片图像；(b) 感兴趣区域（图a中绿色框选区域）的原始光谱曲线；(c) 经反射率校准后的光谱曲线。

图5比较了不同原发灶来源MTHN的平均光谱反射率曲线，不同原发灶MTHN的光谱反射率强度存在显著差异，这些差异源于不同原发癌特定生物组分的内在光谱特性，为利用机器学习鉴别肿瘤原发灶提供了坚实的理论依据。

图5 不同原发灶MTHN平均光谱曲线对比

本研究对反射率校准后的高光谱图像进行图像增强与分割策略，有效扩充了样本量。应用PCA和BSS-PCA两种不同的特征提取方法来处理样品的全光谱（256个波段）数据。经特征选择后，选用径向基核函数支持向量机（SVM-RBF）、LightGBM、基于Stacking技术的融合模型（MTHN-SC）及ResNet50四种机器学习模型，系统评估其对六种不同原发灶来源MTHN的鉴别性能。评价指标涵盖准确率（Accuracy）、召回率（Recall）和特异度（Specificity）三项核心指标。下表汇总了各模型在PCA与BSS-PCA两种特征选择方法下的性能表现，实验结果表明，传统 PCA 特征选择下各模型性能差异明显，且在高维判别信息保留方面存在一定局限。相比之下，BSS-PCA 能够更有效地提取判别特征，显著提升整体分类性能，其中 BSS-PCA 与 MTHN-SC 的组合取得了最高准确率（82.47%），并在召回率和特异性上均表现*优。得益于 Stacking 结构对多模型信息的有效融合，MTHN-SC 在降低误分类和过拟合风险的同时显著增强了泛化能力。尽管 ResNet50 展示了深度学习在高光谱数据分析中的潜力，但其性能和实用性仍受限于数据规模和计算成本。

结论

本研究利用 HSI 技术对来源于六种不同原发部位的 MTHN 病理切片进行采集与分析，采用 PCA 和 BSS-PCA 两种特征波段选择方法，并结合四种机器学习模型（SVM-RBF、LightGBM、MTHN-SC 和 ResNet50）对肿瘤类型进行分类，旨在通过多模型协同提升 MTHN 的分类精度。MTHN-SC 模型通过 Stacking 结构集成 SVM、LightGBM 和随机森林，充分发挥不同算法的互补优势，将线性模型与树模型的预测能力有效融合，从而提升诊断准确率。该模型采用 BSS-PCA 进行特征波段选择，相较于传统 PCA，能够增强特征判别能力并有效抑制噪声，为机器学习模型提供更高质量的输入数据，这在处理高维高光谱数据时具有显著优势。通过引入随机森林作为元模型对 SVM 和 LightGBM 的输出进行融合，MTHN-SC 有效降低了医学机器学习中常见的偏置和过拟合风险，显著提升了诊断过程的鲁棒性和泛化能力。实验结果表明，MTHN-SC 模型取得了 82.47% 的诊断准确率，在对比模型中表现*优，验证了其在多原发部位 MTHN 快速、准确诊断中的应用潜力，对精准治疗方案制定及高光谱技术在医学诊断中的推广具有重要意义。