一种基于声明的机器学习算法,用于识别肺动脉高压患者
时间:2023-06-11 16:47:30 热度:37.1℃ 作者:网络
研究背景:
肺动脉高压(PAH)是一种与快速进展和不良预后相关的罕见疾病。典型的PAH症状,如呼吸困难和疲劳,是非特异性的,常常被误诊为其他疾病,因此诊断具有挑战性。这导致症状出现与PAH确诊之间存在长时间的延迟(平均超过2年),大多数新诊断的患者已经经历了严重症状。在过去的二十年里,PAH的治疗选择有所扩展,然而尽管如此,1年的死亡率估计为8%至17%,3年的死亡率为25%至44%。与诊断时疾病较轻的患者相比,诊断时疾病较重的患者预后更差。人工智能和机器学习算法在医疗保健领域的应用日益增多,并有望对临床决策产生重大贡献。机器学习算法评估大量数据以识别重复出现的主题或模式,然后用于预测关系。在需要考虑多个因素的任务中,这些算法可以提供明显的好处,例如诊断和预测结果。最近,已开发出使用大规模例行收集的患者数据库的机器学习算法,用于筛查疾病或识别高风险患者;例如,电子健康记录数据已在糖尿病和心力衰竭以及PAH中得到应用。在本文中,我们描述了一种基于美国医疗保险索赔数据的机器学习算法的开发,用于早期识别PAH患者。
研究方法及结果:
监督式ML模型分析了美国Optum® Clinformatics® Data Mart医疗索赔数据库(2015年1月至2019年12月)的回顾性去身份识别数据。根据观察到的差异,建立了与PAH和非PAH(对照组)配对的倾向评分。使用随机森林模型将患者在诊断时和诊断前6个月分类为PAH或非PAH。其中PAH组和非PAH组分别包括1339名和4222名患者。在诊断前6个月,该模型在区分PAH和非PAH患者方面表现良好,曲线下面积为0.84,召回率(敏感性)为0.73,准确率为0.50。区分PAH和非PAH组的关键特征包括首次症状出现与诊断前模型日期(即诊断前6个月)之间的时间较长;更多的诊断和处方索赔、循环索赔和影像检查,导致整体医疗资源利用率较高;以及更多的住院情况。我们的模型可以在诊断前6个月区分患有和不患有PAH的患者,并说明使用常规索赔数据识别可能受益于PAH特定筛查和/或较早转诊的患者在人群层面是可行的。
研究结论:
总之,我们的模型能够在诊断前6个月区分患有PAH和不患有PAH的患者。我们模型的表现说明了在人群层面识别可能需要进一步进行PAH特定筛查的患者是可行的,并且暗示了索赔数据能够识别除当前已建立的因素之外的特征,以在确认诊断之前指示PAH。即使在诊断之前,患有PAH的患者面临着比没有PAH的患者更高的费用和疾病负担;因此,更早诊断PAH可能不仅可以通过及时干预改善患者预后,还有助于降低患者、医疗系统和付款人的总体费用。该模型的理想使用方式是由综合性医疗服务提供商实施,用于早期识别PAH患者;PAH是一种罕见但慢性疾病,具有显著的医疗资源利用、昂贵的药物和高成本的专科护理。
参考文献:
Hyde B, Paoli CJ, Panjabi S, Bettencourt KC, Bell Lynum KS, Selej M. A claims-based, machine-learning algorithm to identify patients with pulmonary arterial hypertension. Pulm Circ. 2023 Jun 6;13(2):e12237. doi: 10.1002/pul2.12237. PMID: 37287599; PMCID: PMC10243208.