Nat Med:基于血液代谢组学预测24种疾病的神经网络模型

时间:2022-10-13 15:57:27   热度:37.1℃   作者:网络

风险分层是疾病早期预防的核心。血液等体液中的代谢物能很好地反映个体健康状态,在疾病预测中已经有广泛的应用,例如胆固醇等血液代谢物是预测心血管疾病的临床指标。随着组学技术,尤其是代谢组学技术的发展,科学家们可以获取越来越多的人类表型信息。运用多个代谢组学特征谱提高疾病预测准确度已经是大势所趋,近些年来,有些研究已经将代谢组特征与衰老、疾病发生和死亡率联系起来。然而,人类代谢组学数据中包含的丰富的生理病理信息及其潜在价值仍然有待挖掘。NMR能够同时对血液中海量的循环代谢物进行检测,还具有批次效应小、试剂要求低、检测成本低的优点。然而,基于NMR的代谢组学在临床检测代谢组学检测及疾病风险预测中的作用有待重视。 

2022年9月22日,柏林夏里特医学院的Roland Eils团队联合多单位在Nature Medicine发表了题为《Metabolomic profiles predict individual multidisease outcomes》的文章。基于22个中心、近12万名志愿者的168个循环标志物NMR血液代谢组学数据,作者训练了一个通过代谢谱预测代谢、血管、呼吸、肌肉骨骼-神经疾病和癌症等24种疾病风险的神经网络模型,该模型对疾病风险分层和预测效果好于已有的临床预测指标,和其他临床预测指标联用时,模型的表现没有显著提升。作者发现除了乳腺癌外其他23种疾病的均与疾病风险相关,II型糖尿病和全因痴呆等疾病与最为相关。此外,作者鉴定了疾病相关的代谢谱,发现较高的脂肪酸、DHA和LA与低II型糖尿病风险相关,脂肪酸和支链氨基酸与低全因痴呆风险相关。综上所述,该研究成功构建一个基于代谢谱代谢状态预测多种疾病的神经网络模型,展示了NMR血液代谢组学特征谱作为多疾病预测方法的潜力和局限性。

研究人群和基于代谢谱预测疾病的神经网络模型

作者首先基于22个中心117981名参与者的UK Biobank队列提取了代谢谱和疾病发生风险的有效信息,训练了一个基于代谢谱预测24种疾病风险的神经网络模型,并用Whitehall II、Rotterdam、Leiden longevity和PROSPER这4个独立的NMR代谢组学队列进行验证。

 

代谢谱能在疾病初始时对疾病风险进行分层

预防的关键是在疾病早期识别出高风险人群。为了探究该模型能否预知疾病风险,作者评估了在观察周期中24种疾病的发生率和百分位数的相关性,发现除了乳腺癌外,其余23种疾病的发生率均与有关。其中15种疾病的前10%代谢状态的疾病发生率是后10%代谢状态的5倍。II型糖尿病、腹主动脉瘤和心衰的发生率与代谢状态最为相关,其前10%代谢状态的疾病发病率是后10%的10倍。脑卒中、主要心血管不良事件、房颤和慢性阻塞性肺病的代谢状态与疾病发生率相关性较低。总之,除乳腺癌外,疾病特异性代谢状态能对疾病风险进行分层。

 

代谢谱与临床预测指标联合使用的预测效果

性别和年龄等信息是在初级护理中很容易获得临床预测指标,常用于心血管疾病、肾病或糖尿病等常见病的风险分层。将这些信息纳入预测指标是一种经济且高效的策略。

作者用Cox比例风险模型将年龄和性别、ASCVD(心血管疾病预测指标集合)和PANEL(血检等临床预测指标集合)等指标单独或者与代谢谱联用预测疾病发生风险,并用Harrell’s C指数定量比较不同指标的分层能力,发现代谢谱指标的疾病预测分层显著优于年龄和性别、ASCVD指标,对肾脏疾病、肝脏疾病和II型糖尿病的预测效果显著好于临床指标,对白内障、青光眼、皮肤癌、结肠癌、直肠癌和前列腺癌的预测效果弱于传统的临床指标。这揭示代谢谱代谢状态在疾病分层中有一定的局限性。

在代谢指标与临床指标联合的比较中,作者发现代谢谱对肾脏疾病、肝脏疾病、II型糖尿病、慢阻肺和心衰的预测能力好于代谢谱联合年龄和性别。代谢谱和ASCVD联用时预测能力只有适度的提高,和PANEL联用时预测能力没有提升。这表明,和年龄和性别、ASCVD和PANEL等临床指标相比,代谢谱能提供更多的预测信息。

模型分层能力在临床实践中的表现

虽然模型的分层能力至关重要,但任何风险模型的临床效用都取决于校准和选择适当的干预阈值。作者在UK Biobank队列中发现代谢状态模型在T2D等多种疾病中都有较好表现,即其预测结果与实际事件有较好的吻合。UK Biobank作为世界上最大和最全面的人群队列之一能实现在大范围内高精度评估临床干预阈值的范围。作者基于此队列计算了决策曲线来评估了代谢状态的预测表现。作者发现模型的分层能力可以转化为临床预测能力。

 

疾病特异性代谢物谱的鉴定

神经网络在实际应用的缺点是它的可解释性很差。为了确定哪些代谢物对疾病风险影响最大,作者使用SHAP值来量化代谢物对代谢状态模型的贡献:SHAP值绝对值越大,代谢物对预测贡献越大越重要,正值表示疾病风险增加,负值表示疾病风险降低。

作者发现谷氨酰胺、甘氨酸、酪氨酸、糖代谢的代谢物、白蛋白、肌酐、乙酰化糖蛋白、酮体、脂肪酸和脂蛋白等对多种疾病的预测均有贡献。肌酐和腹主动脉瘤、乙酰化糖蛋白和肺癌、慢阻肺的相关性最大,具备成为这几种疾病标志物的潜力。

接下来,作者终点关注了II型糖尿病和全因痴呆,代谢状态对这两种疾病的预测和临床效用指征有很大的贡献。对II型糖尿病预测而言,葡萄糖和乳酸是贡献最大的代谢物,氨基酸、酮体、脂质、脂肪酸、肌酐和白蛋白均有贡献。较高的脂肪酸、DHA和LA与低II型糖尿病风险相关。对全因痴呆而言,肌酐、白蛋白、谷氨酰胺、亮氨酸和酪氨酸对预测的贡献最大,其中脂肪酸和支链氨基酸和全因痴呆低风险相关,提示这两种代谢物有一定的保护作用。

 

总结

血液代谢物是临床上疾病预测常用指标,随着代谢组学技术的发展,运用代谢组学中的代谢特征图谱预测疾病已经成为可能。然而,代谢组学数据中隐藏的重要生理病理信息及其潜在的临床应用价值有待挖掘。本研究基于全球最大最全面的UK Biobank人群队列中的血液NMR代谢组学数据,训练了基于代谢谱代谢状态预测24种疾病的神经网络模型,并且发现了II型糖尿病、全因痴呆、肾脏疾病、肝脏疾病、腹主动脉瘤和心衰等疾病与代谢状态最为相关。该代谢谱代谢状态模型和临床指标联合时,预测能力没有显著提高,这表明该模型对疾病分层和预测效果好于已有的临床预测指标。最后,作者鉴定了和疾病相关的代谢物,并且重点关注了II型糖尿病和痴呆,发现较高的脂肪酸、DHA和LA与低II型糖尿病风险相关,脂肪酸和支链氨基酸与低全因痴呆风险相关。补充这些代谢物或将对降低疾病风险有所帮助。总之,本研究基于血液NMR代谢组学数据首次开发了一个预测多种疾病的代谢状态模型,并鉴定了疾病相关的代谢物,推进了代谢组学在临床疾病预测应用的步伐。

链接:https://www.nature.com/articles/s41591-022-01980-3

上一篇: Nature Methods:陈玲玲评述...

下一篇: JAMA子刊:轻度认知障碍或痴呆症患者的...


 本站广告