要点
问题不同的二手数据来源能否近乎实时地准确估计美国的枪支杀人案?
发现这项全国预后研究将来自5个在线、医疗服务和热线数据源的数据结合到一个集成模型中,该模型准确(99.74%)预测了该年38例死亡中近实时的枪支谋杀死亡人数。
意义本研究的结果表明,这种预测枪支杀人的模型提供了一个可行的过程,以促进及时的预防工作和扩大使用二手数据源的枪支暴力研究。
重要性涉枪杀人是一个重大的公共卫生问题;缺乏及时的死亡率数据对有效应对提出了相当大的挑战。近实时数据源为更及时地估计枪支杀人案提供了可能。
客观的估算美国每周和每年枪支杀人案的近实时负担。
设计、设置和参与者在这项预后研究中,从多个数据源获得匿名纵向时间序列数据,包括与枪支相关的谷歌和YouTube搜索趋势(2014-2019年)、枪支伤害的急诊就诊次数(2014-2019年国家综合征监测计划)、枪支相关伤害的紧急医疗服务激活(生物空间,2014-2019年)以及以关键字标记的国家家庭暴力热线联系人枪支(2016 - 2019)。数据分析时间为2021年9月至2022年9月。
主要成果及措施使用两阶段管道计算美国枪支杀人案的每周估计数,首先为每个数据流拟合最佳的机器学习模型,然后将最佳的单个模型组合成堆叠的集成模型。通过将2019年枪支杀人案的预测与国家生命统计系统死亡证书确定的实际枪支杀人案进行比较,评估了模型的准确性。结果还与SARIMA(季节性自回归综合移动平均)模型进行了比较,SARIMA模型是预测损伤死亡率的常用方法。
结果个体和整体模型都对涉枪杀人案做出了高度准确的估计。各个模型对枪支杀人案每周估计的平均误差(均方根误差)从急诊室就诊的24.95到SARIMA预测的31.29不等。与单个数据源相比,组合数据源的集成模型具有更低的周平均误差和更高的年准确度:全源集成模型的周均方根误差为24.46人死亡,全年准确度为99.74%,预测2019年全年38人死亡的枪支杀人案总数(相比之下,SARIMA模型的准确度为95.48%,死亡人数为652人)。该模型将报告每周枪支杀人案的时间间隔从7到8个月缩短到大约6周。
结论与相关性在这项关于机器学习的各种二手数据的预测研究中,集成建模对每周和每年的枪支杀人案进行了准确的近实时估计,并大大减少了数据源的时间滞后。综合模型预测可以加快公共卫生从业人员和政策制定者应对枪支杀人案意外变化的能力。
在美国,涉枪杀人是一个主要的公共卫生问题。在2019年至2020年期间,美国枪支杀人率增加了35%,而种族差异则扩大了,凸显了这一严重问题。1临时人口动态统计数据显示,2021年枪支谋杀率再次上升,约为20 966起枪支谋杀,比2020年高出8.3%。2枪支杀人是美国1至44岁人群死亡的前五大原因之一。3.尽管这一问题的范围很广,但很难及时描述和预测全国枪支杀人趋势的变化。疾病控制和预防中心(CDC)报告的枪支死亡率数据来自全国2000多家地方验尸官和/或法医办公室完成的死亡证明。4由于人口动态记录的大幅度分散,编制临时死亡率统计数据大约需要7至8个月,而最终的全国枪支死亡率统计数据滞后了1年多。3.尽管一些地方执法机构收集并发布了接近实时的数据,5由于最近执法部门对联邦调查局自愿的全国事件报告系统的参与减少,审查全国凶杀数据的能力受到了极大的限制。6,7
数据滞后对公共卫生应对工作构成重大挑战。8枪支杀人案数据的延迟影响了联邦、州和地方机构监测趋势的能力,检查问题的严重性,并及时做出基于数据的决策。8这种拖延阻碍了为防止枪支暴力提供资金、支持和协调以证据为基础的及时应对措施的努力。9最后,准确和及时的监测数据对于确定可能受益于预防服务的人群的趋势和相应地分配资源至关重要。
近实时数据的可用性为提前及时估计枪支杀人案提供了机会。二级数据源,如社交媒体和搜索查询数据,已被用于跟踪和预测各种健康结果,包括心理健康和自杀。10-14尽管之前的研究15观察到美国各州与枪支相关的在线搜索数据与枪支死亡率之间存在很强的相关性,但在将多个数据源的信息结合起来方面所做的工作有限。万博manbetx平台首页
根据之前使用机器学习方法评估自杀和阿片类药物过量死亡人数的成功经验,10,14本研究使用来自在线、公共卫生服务和家庭暴力热线数据源的匿名时间序列计数数据作为机器学习模型的输入,以近实时和预测时段估计每周和每年的枪支杀人案负担,并讨论这种方法在公共卫生预防方面的应用。
在这项预后研究中,我们使用来自5个在线和健康服务预测数据来源和1个结果数据来源的匿名时间序列计数数据来构建模型。CDC对该活动进行了审查,并按照适用的联邦法律和CDC政策进行(45 CFR§46、21 CFR§56、42 USC§241(d)、5 USC§552a和44 USC§3501等);作为鉴定数据的二次分析,该研究免除了CDC机构审查委员会的审查和知情同意的要求。本研究坚持加强流行病学观察性研究的报告(选通脉冲)和个体预后或诊断的多变量预测模型的透明报告(三脚架)报告指引。不需要知情同意。
所有数据都是公开的和/或已被识别的,理论上与枪支杀人趋势有关,并且(除了死亡证明数据外)是实时或接近实时的。该模型包括在线数据源,作为公众对枪支利益的代理。列入保健服务数据来源是为了反映与火器有关的严重伤害寻求治疗的情况。国家家庭暴力热线的数据显示,人们担心家庭暴力会不断升级,这是亲密伴侣可能使用枪支杀人的标志。
我们感兴趣的主要结果是每周美国枪支谋杀死亡人数。使用国家生命统计系统的死亡证明数据确定死亡人数《国际疾病和有关健康问题统计分类》,第十版(icd -X93到X95和U01.4的根本死因162014年1月1日至2019年12月31日全国枪支杀人死亡人数的每日统计是以周为单位汇总的。
谷歌的搜索词数据是通过谷歌Trends平台提取的,使用的是Python 4.7版的pytrends包17为选定的关键字收集标准化的搜索流行度指标。根据对火器伤害和死亡相关研究文章的回顾,选择了十个关键词:枪,散弹枪,步枪,9毫米手枪,杀人,谋杀,枪击,枪支暴力,和射击。15每日标准化计数汇总到连续的每周时间框架,从2014年1月1日到2019年12月31日。
YouTube搜索趋势也通过谷歌趋势平台提取,使用Python的pytrends包,4.7版17为相同的10个关键字收集标准化的搜索流行度指标。每日标准化计数汇总到连续的每周时间框架,从2014年1月1日到2019年12月31日。
国家综合征监测计划(NSSP)是疾病预防控制中心之间的合作;联邦、地方和州卫生部门;与学术和私营部门合作伙伴一起收集、分析和共享从医疗机构(包括美国所有50个州和关岛的急诊科)收到的电子患者遭遇数据。18从2014年1月1日到2019年12月31日,每周与火器伤害相关的急诊科就诊比例使用经过验证的火器伤害综合征定义(e附录1)补充1).19分析仅限于在研究期间持续报告信息性数据的机构,基于40或更少的变异系数和平均每周信息性出院诊断完成率为75%或更高。
平均每周信息性出院诊断是一种衡量出院诊断领域信息随时间的信息性的方法。万博manbetx平台首页信息化出院诊断用于对出院诊断现场的质量进行控制。如果在过去2年里有超过或等于75%的信息性出院诊断,则将设施纳入分析。数据质量变异系数是一种衡量总成交量随时间波动的指标。变异系数是用来控制在有关期间新设施入厂的情况。如果设施在过去2年内的变异系数小于或等于40,则包括在内。
该服务生物空间聚合了来自美国40多个州数千个EMS操作网络的近实时电子紧急医疗服务(EMS)患者数据20.并为公共部门和商业医疗保健实体提供包括EMS和其他电子医疗保健数据源的分析数据产品。从2014年1月1日到2019年12月31日,与火器伤害相关的EMS激活的每周比例使用火器伤害综合征定义(e附录2)获得补充1).
热线是为家庭暴力幸存者及其朋友和家人提供的24小时全国性服务,通过电话、聊天和短信提供服务。21热线记录了被识别的联系人的人口统计和情况细节;标记有关键字的联系人枪支说明在虐待过程中,施暴者拥有或曾经获得枪支,威胁使用枪支,或个人认为施暴者可能获得枪支。为标签的热线呼叫卷枪支提取自2016年1月1日至2019年12月31日,并汇总为连续的每周时间段。
为了对全国每周的枪支杀人案进行预测,我们实现了一个多步骤分析管道,包括从每个数据源中选择特征,从每个单独的数据源中构建基于机器学习的预测,并通过第二个机器学习模型集成这些预测,以产生单个复合每周预测。图补充1提供多级机器学习管道的可视化摘要。与当代机器学习实践一致,我们将数据分为单独的训练、验证和测试部分,以严格评估模型性能。模型训练使用了2017年及更早的数据。使用2018年的数据进行模型验证(选择表现最佳的方法)。2019年的数据作为评估最终模型性能的测试集。基线季节自回归综合移动平均(SARIMA)时间序列预测模型是伤害死亡率建模中应用最广泛的方法之一,22使用2018年之前的数据年的死亡率计数作为比较。在2021年9月至2022年9月期间,在R版本4.0.2 (R基金会)和Python版本3.8.5 (Python软件基金会)中进行了分析。
变量选择程序用于每个包含多个变量的数据源,以确保只纳入重要的特征。测试了六种变量选择方法:正向、向后、逐步、最小绝对收缩和选择算子(LASSO)、弹性网和随机森林。23
对于单个建模,使用3个机器学习模型从每个单一数据源创建每周枪支杀人死亡的预测:线性(多变量)回归、支持向量回归和随机森林。来自每个单独数据源的最佳模型的预测被组合成一个堆叠的集成模型。集成模型是为所有数据源、仅为医疗服务数据源和仅为在线数据源创建的。测试的集成模型包括梯度增强机、神经网络、广义线性模型、支持向量机、随机森林、调谐随机森林和LASSO。
三个主要标准被用来评估个体和整体模型的性能。均方根误差(RMSE)和皮尔逊相关系数测量周估计的性能。均方根误差提供了预测值与实际值之间距离的度量:RMSE越低,模型拟合越好。皮尔逊相关系数提供了预测值和观测值之间线性相关的度量。使用以下公式评估全年准确度:
此公式提供了预测年度死亡人数与实际年度死亡人数之间的接近程度的百分比估计。通过使用验证数据集并在所有性能指标上平均其位置来选择最佳建模方法。机器学习预测的2019年枪支死亡率计数与SARIMA模型预测进行了比较。该模型将滚动的每周枪支杀人案估计的滞后时间从7到8个月(临时死亡证明数据)减少到大约6周(预测数据)。
表1详细介绍了预测2019年每周枪支杀人计数的每个模型的性能。2个卫生服务数据源的Pearson相关系数最高——急诊就诊(r= 0.6502)和EMS激活(r= 0.6593)。在线数据源的Pearson相关系数中等(r= 0.4551-0.4895)和电话热线数据(r= 0.1263)。大多数在线和医疗服务数据源对每周预测的平均误差(RMSE值)相似;ED数据在这个指标上表现最好(RMSE = 24.95)。对于全年的预测准确率,在线数据源对枪支杀人案死亡人数的预测准确率超过99%,而ED数据源的预测准确率为96.87%,EMS数据源的预测准确率为97.32%。家暴热线数据全年的准确率为98.19%。SARIMA模型在大多数性能指标上表现相对较低(全年精度为95.48%;r= 0.4054;rmse = 31.29)。
的度量表1说明2019年测试数据集上的预测性能,一次只使用单一数据源,并应用从测试和验证数据集中确定的最佳模型和变量选择程序。线性模型被证明是谷歌、EMS和ED数据的最佳表现;支持向量机模型在YouTube和家暴热线数据上表现最好。
图1将单个数据源模型预测的每周死亡人数与实际的每周枪支谋杀死亡人数进行可视化。来自各个数据来源的预测趋势彼此差异很大,一些人高估或低估了每周的枪支杀人死亡人数。图1演示单个数据源对集成模型的潜在的独特和互补的贡献。例如,只有NSSP充分预测了2019年夏季的上涨(21-31周)。即使是预测性能指标普遍较差的数据源,如家庭虐待热线,也在这一年的不同时间点提供了有用的输入:使用热线数据构建的预测模型直到第42周才反映实际数据。最终的集合模型是在有和没有家暴热线数据的情况下建立的;包含这些数据导致性能略有提高(RMSE = 24.46 vs 24.54)。
表2总结集成模型的性能指标。具有所有数据源的集成模型具有最高的全年精度(99.74%)和较强的RMSE(24.46)。卫生服务数据集成模型的Pearson相关系数略高(r= 0.6728)比所有数据源(r= 0.6036)和在线数据源(r= 0.4621)。所有集成模型通过LASSO组合预测,因为它始终在多个评估模型中表现最好。表格补充1详细介绍为堆叠集成模型测试的各种机器学习模型的性能。
图2使用最终的LASSO集合模型预测每周的枪支杀人案。集合模型的预测与实际的枪支杀人趋势和季节性非常接近。综合模型未能反映第16周至第20周枪支杀人案的减少,因为没有一个单独的数据源预测到这种减少。值得注意的是,对于所有指标,集成模型的所有组合都比基线SARIMA模型表现得更好。
及时提供数据对于预防火器伤害工作至关重要。我们提出了一种新颖的方法来收集近实时,准确的全国枪支杀人信息。万博manbetx平台首页通过结合来自在线资源、紧急万博manbetx平台首页服务和热线联系人的信息,我们高度准确地预测了每年的枪支谋杀死亡人数,在38人以内。目前,死亡和临时人口动态统计报告之间的数据滞后约8个月;使用集合方法,我们以滚动的方式准确估计枪支杀人案,延迟时间仅为6周。这种方法可以大大减少传统数据源时间滞后的影响,并加快多个部门应对枪支杀人案意外变化的能力。
及时的数据是做出最佳决策的必要条件。世界各地的领导人使用近实时的COVID-19感染、住院和死亡数据来指导有关公共卫生和安全的决策24,25;各国使用近实时综合征监测数据来发现、了解和监测疾病暴发和生物恐怖主义威胁。18集成建模加快了数据可用性,提高了准确性,并将各种不同的新数据源(例如在线搜索趋势和EMS对枪支伤害的激活)转化为有用的可操作信息,以便为公共卫生部门及时应对枪支暴力提供信息。万博manbetx平台首页我们的方法补充了枪支暴力档案汇编的案件级数据,26呈现宏观层面的国家流行病学趋势。事实证明,汇集不同的数据来源是预防暴力的一种成功方法:2001年在威尔士卡迪夫首次全面实施的卡迪夫模式表明,如果以急诊部门和警察部门收集的信息为基础进行预防,就能更有效地减少暴力。万博manbetx平台首页27集成建模体现了这一公共卫生概念,即往往需要许多数据源来揭示正在发生的事情的真实情况。通过结合来自各个数据源的预测,集成模型预测枪支杀人案的准确性高于单个数据源。
尽管机器学习模型越来越多地被用于预测和研究传染病(如流感样疾病)28和COVID-1929),将这些方法应用于非传染性疾病是最近的事。10,14传染病的报告要比非传染病的报告快得多(如流感需要1-2周)30.Vs自杀及火器伤等题目需1年);因此,传染病模型使用前一周的标准数据(如感染率、住院率和死亡率)来建立及时的预测。对于非传染性事件,如自杀和他杀,此类数据(如死亡)长达1年。结合各种非传统的近实时数据源正在成为预测非传染性死亡的可行方法。2020年,Choi等人10使用稳健的定量方法来证明新颖的数据源和集成建模可以准确估计近实时的自杀死亡人数。通过我们的集成模型,我们证明了这些方法可以用于枪支杀人。对传染病进行准确的短期预测可以改善医院病床和疫苗等资源的分配;同样,对伤害和暴力的近乎实时估计可以优化联邦政府对这些问题的公共卫生反应。关于枪支杀人案的更及时的数据可以通过提供早期预警,帮助指导联邦规划和筹资,为实施全面预防方法以防止枪支暴力的时机和规模提供信息。接近实时的数据还提供了一个更及时的反馈循环,通过它可以更容易地评估工作的有效性。
我们的方法还强调了使用不同指标来评估机器学习模型性能的重要性。在我们的研究中,基于ed的个体模型的Pearson相关系数最高;然而,如果我们只根据相关系数来选择模型,我们就会选择最不准确的模型。
这种评估枪支杀人的方法的成功代表了一个机会,可以加速多个部门在了解全国枪支暴力相关趋势方面的预防工作。另一个至关重要的下一步是确定快速传播这些数据的最佳方式,以便从业者能够快速响应新出现的趋势;传播途径可以包括数据仪表板、COVID-19数据跟踪器或FluView等网站,25,30.或者通过现有的监控系统传播警报。其他可能的下一步措施包括将这些方法扩展到其他与枪支有关的死亡原因,如意外枪支死亡和其他伤害主题。今后还需要开展工作,探索使用这种方法在较小的地理单位和社会人口类别中估计火器死亡的可行性。研究其他数据源的效用,如新闻报道、社交媒体和枪支暴力档案整理的信息,万博manbetx平台首页26也会有好处。
虽然这种方法因其及时性和准确性而有希望,但也有局限性。首先,我们提出了国家估计;目前尚不清楚这种建模方法是否适用于较小的地理单元。由于许多有效的预防他杀的工作都是在地方一级进行的,例如“治疗暴力”模式的地方“暴力中断者”,以解决和缓解纠纷,31在市、县和州一级进行估计将是有益的。同样,这种方法不提供按社会人口学类别划分的估计。涉枪杀人对少数族裔青年的影响尤为严重32;在可能的情况下,按年龄和种族分列数据流以计算分层估计,将为减少差异的干预措施提供有价值的及时信息。万博manbetx平台首页目前尚不清楚在2020年至2021年发生大规模枪击事件和与covid -19相关的暴力事件增加等突发事件的情况下,这种方法将如何发挥作用。33随着死亡证明数据的公布,有必要对额外年份的数据进行进一步调查。此外,还不清楚公共卫生和其他部门将如何对预测数据作出反应;这些模型只有在用于制定更及时的变更时才有价值。尽管模型很准确,但这种方法相对较新,可能会限制可操作性。
在这项关于机器学习的各种二手数据的预测研究中,集成建模对每周和每年的枪支杀人案进行了准确的、接近实时的估计,并大大减少了数据源的时间滞后。综合模型预测可以加快公共卫生从业人员和政策制定者应对枪支杀人案意外变化的能力。
接受出版:2023年1月26日。
发表:2023年3月17日。doi:10.1001 / jamanetworkopen.2023.3413
开放:这是一篇开放获取的文章,根据CC-BY许可证。©2023 Swedo EA et al。狗万体育下载地址JAMA网络开放。
通讯作者:Elizabeth A. Swedo,医学博士,国家伤害预防和控制中心暴力预防部,疾病控制和预防中心,4770 Buford Hwy NE,亚特兰大,佐治亚州30341 (eswedo@cdc.gov).
作者的贡献:Alic先生可以完全访问研究中的所有数据,并对数据的完整性和数据分析的准确性负责。
概念及设计:斯威多,阿里克,劳,萨姆纳,鲍文,默西。
数据的获取、分析或解释:斯威多,阿里克,劳,萨姆纳,陈,兹瓦尔德,范戴克,鲍文。
文稿起草:斯威多,阿里克,劳,陈,兹瓦尔德,范戴克,鲍文,默西。
对重要知识内容的手稿的批判性修订:所有作者。
统计分析:Alic, Law, Bowen。
获得资助:Swedo。
支持:行政、技术或物质上的支持:斯威多,阿里克,萨姆纳,陈,范·戴克,默西。
监督:劳,萨姆纳,鲍文,默西。
利益冲突披露:没有报道。
资金/支持:疾病控制和预防中心(CDC)资助了这项研究的设计和实施;二手资料的收集、管理、分析和解释;以及手稿的准备、审查或批准。
资助者/发起人的角色:疾控中心的调查人员参与了这项研究的设计和实施;数据的收集、管理、分析和解释;手稿的准备、审查或批准;并决定将手稿提交出版。
免责声明:本报告中的发现和结论仅代表作者的观点,并不代表美国疾病控制与预防中心的官方立场。
数据共享声明:看到补充2。
额外的贡献:Nimeshkumar P. Patel, MA, CDC,协助验证和复制分析,除了工资之外没有报酬。
3.
疾病控制和预防中心。基于web的伤害统计查询和报告系统(WISQARS)。国家伤害预防控制中心;2020.
4.
布鲁克斯;法医和验尸官办公室,2018年。司法统计局;2021.
9.
David-Ferdon c *, Vivolo-Kantor a *, Dahlberg ll*, Marshall k *, Rainford n*, Hall je*。
预防青少年暴力和相关危险行为的综合技术方案。疾病控制和预防中心;2016.doi:
10.15620 / cdc.43085
16.
医疗保险和医疗补助服务中心。ICD-10-CM编码和报告官方指南。医疗保险和医疗补助服务中心;2018.
17.
王志刚;pytrends:谷歌趋势的非官方API:技术报告。Python库版本4.7.3。2020.
18.
疾病控制和预防中心。国家综合征监测计划(NSSP)。疾病控制和预防中心;2020.
31.
全球治愈暴力。有效性的证据。全球消除暴力;2021.