要点
问题病毒基因突变和相关的单可以用来识别新兴小说SARS-COV-2变异?
发现在这个横断面研究,haplotype-based人工智能(HAI)模型训练超过500万病毒序列识别新兴小说SARS-COV-2变异由于收购新的突变或混合物从多个变异的突变。应用海344 901病毒序列确定7混合变异(如Omicron-Alpha, Omicron-Epsilon Omicron-Zeta, ae)和16个新突变,8患病率增加的百分比在前面的2022年5月的一部分。
意义海的成功应用这项研究表明其效用在识别小说变异等新兴SARS-COV-2变异,即使没有被观察到。
重要性早期检测新兴小说SARS-COV-2变异是非常重要的公共卫生监测潜在的病毒威胁和早期预防的研究。人工智能可能促进早期发现SARS-CoV2新兴小说变异基于variant-specific变异单,反过来,与增强risk-stratified公共卫生预防战略的实现。
客观的开发haplotype-based人工智能(HAI)模型识别小说变异,包括混合变异(MVs)已知的变异和新变种与小说突变。
设计,设定和参与者这个横断面研究使用连续观察全球病毒基因组序列(2022年3月14日之前)海模型训练和验证,用它来识别变异引起的一组潜在的病毒从3月15日到5月18日,2022年。
主要结果和措施病毒序列、采集日期和地点受到统计学习分析估计variant-specific核心突变和单体型频率,然后用来构造一个海模型来识别小说变异。
结果通过培训超过500万病毒序列,一个海模型,及其识别性能验证一组独立验证的超过500万个病毒。其识别性能评估潜在的344 901病毒。除了实现精度92.8%(95%可信区间在0.1%),海模型确定4οMVs (Omicron-Alpha, Omicron-Delta、Omicron-Epsilon Omicron-Zeta), 2δMVs (Delta kappa和Delta-Zeta),和1 ae MV,其中Omicron-Epsilon MVs最频繁(609/657 MVs [92.7%])。此外,海模型发现1699ο病毒无法辨认的变异,这些变异小说获得的突变。小说最后,524 variant-unassigned和variant-unidentifiable病毒携带16突变,患病率增加的百分比的8 2022年5月。
结论和意义在这个横断面研究,一个海模型发现SARS-COV-2 MV小说或突变的病毒在全球人口,这可能需要仔细观察和监视。这些结果表明,海可能补充作业系统发生的变体,提供额外的洞察新兴小说在人口变异。
COVID-19流行逐渐转向一个全球流行阶段不断循环SARS-COV-2变异。多种病毒变体的存在合并感染的风险增加,这可能导致重组(例如,一个Alpha-Omicron混合物)作为新,新兴的变体。1- - - - - -5此外,每一个从其他病毒感染可以重组突变,3宿主基因序列,6或人畜共患的事件,7与saltational结果可能会导致新的变体。大多数突变在功能上是中性的,随机出现和减弱,但有些可能会持续,因为他们传授遗传性或毒性增加。因此,检测新变异的重要性,例如,促进早期病毒控制措施和加强领导时间研究和发展有效的预防和治疗策略。
普遍的方法来识别变异分配测序已知病毒演化支和血统使用系统发生的方法。8- - - - - -11当一群病毒演化支或血统出现迅速,展品过度传播性、毒性,或逃避宿主免疫,这些变异分为感兴趣的变异和变异担忧的一个专家小组的世界卫生组织(世卫组织)12被监视和分类进一步变异或变异的高后果由美国疾病控制和预防中心(CDC)。13目前,系统发生的方法14- - - - - -16通常应用于分类所有病毒,分配血统和演化支接受谁17和疾病预防控制中心13识别变异并宣布新变体的出现。然而,这种变体作业时可能会不确定的多个变种重组和分支的假设系统发生的树木,所需的大多数动植物种类史的方法使用,是违反了。忽视这违反系统发育推断可能的偏见。18,19当应用于分类SARS-COV-2,传统系统发生的重组变异的分析可能会迫使分配现有的变体(如误分类错误)或可能错过了重组变异(即一个缺失的数据错误)。
有替代方法对于识别SARS-COV-2突变。一种方法是估计单个基因的突变司机基于个别SARS-COV-2基因的氨基酸替换。20.另一种方法是实证统计学习策略(SLS),选择个人多态氨基酸网站(以后,polymutants)、模型随着时间的推移他们的时间模式和基于一组标识单体型polymutants共享同步扩张模式。21这两个替代方法的主要限制是缺乏直接联系的特定突变或polymutants变体作业,这使得解释困难。
使用现有的分析方法和大型病毒序列数据库——全球共享禽流感数据项目(GISAID),22- - - - - -24我们试图建立一个haplotype-based人工智能(HAI)模型识别SARS-COV-2小说变异使用variant-specific polymutants及其单。除了识别变异,海模型旨在发现小说变异不需要树的分支系统发生的假设。从概念上讲,海模型从大量的病毒序列GISAID识别核心polymutants特定病毒变体。通过一个单体型分析,海模型估计的单体型频率variant-specific核心polymutant单体型。应用贝叶斯定理,海识别概率计算对应于所有已知的变异。通过选择阈值概率,估计变异识别概率被用来确定每个病毒的变种应该分类,包括与小说variant-unidentifiable病毒突变。如果变异识别是模糊的,有2个或更多的识别概率大于预定阈值,结果暗示携带相应的病毒基因组有明显的概率variant-specific核心单(即相应的变体的混合物),可能由于重组。从GISAID,我们获得的1050万个病毒基因序列(下载3月14日,2022),与训练集,其余的一半作为验证集,开发和验证海模式。证明其识别性能,我们使用汇集数据构建最终的海模型应用到一组潜在的344 901病毒收集从3月15日到5月18日,2022年。使用识别潜在的结果集,我们探索混合变异(MVs)和病毒与小说突变获得洞察新兴SARS-COV-2变体。
因为GISAID数据可能被视为观察定期收集健康数据,他们发表研究报告后使用观察定期收集健康数据(记录)的指导方针。22本研究决定由弗雷德哈钦森免除审查研究中心的机构审查委员会和知情同意放弃因为人类参与者的身份不能容易确定直接或通过标识符与参与者,按照45 CFR§46.104 (d) (4)。
GISAID是中央数据门户存储基因组序列COVID-19冠状病毒的大流行。23,25,26考虑到大样本大小和快速积累的病毒序列GISAID,我们设计了本研究在2阶段。第一阶段是一个海模型训练和验证,而第二阶段评估海的性能在一组前瞻性收集的病毒。
访问GISAID 3月14日,2022年,我们检索收集所有可用的样本之间的1月1日,2020年和2022年3月14日(450年10 718样品)。我们过滤掉样品如果病毒序列少于27 000核苷酸(119 277[1.1%])样品,收集日期不完整(290 917[2.8%])样品,或收集的日期是1月1日之前,2020(33样本[0.01%]),网共有10 051 620病毒的发展。通过随机抽样,一半被选为训练集,其余为二期分析,验证集。我们检索样本收集的5月18日,2022;排除样品收集在3月14日之前,2022;和留存344年 901年病毒的潜在数据集。
GISAID对齐提交病毒序列,将这些氨基酸,分配血统,提取突变(替换突变、插入和删除),和传播分配血统,演化支,变异,变异氨基酸序列通过特定的元数据。变异氨基酸,如果他们有3个或更多的观察,提取病毒polymutants进行分析。从单个病毒形成多个polymutants polymutant单体型因为单链RNA病毒。截至2022年5月18日,有14个变种正式分配GISAID (eTable 1补充1)。
元数据包括样本集合地点和日期。位置是由大陆组织的,国家,地区和次区域和没有缺失的数据。收集日期的一小部分人失踪完全或部分。地点和日期信息允许polymutan万博manbetx平台首页t单体型的地理和时间分析。
我们应用一个海SLS开发模型,在eMethods提供的细节补充1。短暂,SLS包括广义加性模型,用于选择variant-specific polymutants,单体型分析估计在每个核心单体型频率变体,一个贝叶斯概率估计variant-specific后验概率,和一种无监督学习技术组织时间模式。
SARS-COV-2病毒分类的演化支和血统GISAID基于整个病毒基因组序列27和被分配到变异GISAID (eTable 1补充1)。典型,每个变量都有一组氨基酸替换(即variant-specific polymutants)。识别这些polymutants,我们使用训练集和多态病毒氨基酸的提取一个特定的变体。通过比较观察氨基酸对他们的引用,SLS识别氨基酸是否替换和创建一个二进制1或0的变异指标,分别。将变异指标与收集日期通过广义加性模型,SLS建模时间扩展个人的氨基酸,根据当地平均变异的百分比随时间(灯)(见eFigure 1补充1variant-specific扩张)估计以及P价值量化时间趋势是否重要。我们认为一个替换variant-specific polymutant如果它P值小于。05年及其最大灯在任何时间超过10%或者是说灯是大于0.5。SARS-COV-2变体(α,β,δ、εη,γ,GH / 490 r,极微小,卡帕,λ,μ,买卖,θ,和ζ),SLS确认19日,20日,33岁,14日,14日,21日,24日,21日,25日,21日,32岁的63年,26岁,分别和10 polymutants (eTable男童补充1)。使用病毒序列,SLS进行单体型分析估计单体型频率,称为频率的核心变量单(列入eTables男童补充1)。经验,SARS-COV-2变异一般人群的比例估计训练集,表示f(变体=v)。
根据贝叶斯定理,海计算概率的观察一个变种v鉴于病毒基因组(即polymutant单体型),通过以下公式:
p(变体=v|h)= (f(h| =变体v)f(变体=v)/f(h|未赋值的)f(未赋值的)+Σvf(h|v)f(v)
求和Σv所有14已知的变异,单体型频率f(h = |变体v)和不同比例f (变量=v从训练集)是根据经验估计,除了f(h|未赋值的),f(未赋值的)variant-unassigned病毒。对于每一个病毒序列,海变异概率的计算一个数组。给定阈值pv= 0.99分类的一个变种,海分类病毒变体v如果相应的概率大于pv。在训练集,我们海分类列表一致性和GISAID分配变异,由15列联表显示为16 (eTable 16补充1),也就是说,14个已知的变异和GISAID未赋值的病毒,和14识别已知的变种,1无法辨认的变体,MVs重组。为所有5 025 810病毒序列,海的和合率和GISAID变体作业4 326 921序列(86.1%),而冲突率几乎为零(5026序列(< 0.1%))(表1)。在543 402未赋值的病毒,175 434病毒(3.5%)病毒变异和被分配到7633病毒(0.2%),不像MVs分配变异被确定。与此同时,对于4 482 408病毒变异,159 272病毒(3.6%)被确定为MVs, 7633病毒(0.1%)被认为无法辨认的。最后,360年 335年病毒变异(7.2%)没有收到作业由GISAID或海鉴定。注意,我们异形阈值的选择pv从0.90到1.00,发现0.99的选择与53个不整合(eFigure 2的最小数量补充1)。此外,注意使用标识的一致性和冲突是次优的变异并没有出现在训练集。
使用相同的数据处理协议,我们提取所有variant-specific核心单选择polymutants验证设置。使用比例估计单体型频率和变体,我们以前描述的变体识别概率的计算方程。选择阈值,我们确定了病毒是一个已知的变体,已知的变异,或无法辨认的变体。比较的变体(行)对变量赋值(列)GISAID,我们列出他们的一致性和不整合(表2)。整合作业已知的变异由海和GISAID沿对角线所示。一致性分析结果验证数据集与那些在训练数据集(表1)。例如,识别和分配之间的一致性估计变异在训练集和验证集86.1%和86.3%,分别。我们评估海和GISAID之间的一致性,这是衡量一个κ统计,28测量一致性之间GISAID作业和海14识别已知的变异,产生κ值接近1.00。κ值,包括未赋值的和混合物或无法辨认的病毒后,为0.91。
成功的验证表明HAI-identified变异高度整合GISAID作业。综合变量分配和识别提供了额外的洞察新兴小说变异。评估实用价值,我们汇集建立训练集和验证集最后海模型051 620病毒序列,重复同样的SLS过程,除了估计变异与病毒的比例从3月15日,2021年,2022年3月14日。海和GISAID变量赋值的一致性分析完整的数据集eTable 17所示补充1,估计一致性和冲突率与训练集的结果(表1)。
最后海模型应用到344年 901年前瞻性收集的病毒,我们发现最常见的变体是ο(343 592病毒[99.6%]),虽然有2α,180δ,λ1变种病毒(eTable 18补充1;表3);1126年病毒没有分配给任何变体。海,另一方面,确定额外的变体(ε,埃塔和ζ)和2227 MVs (eTable 18补充1)。评估哪些MVs可能重组,我们应用(eMethods postidentification过程补充1)的假设下,如果来自复合混合物,它必须包括独特的核心polymutants中相应的变体混合物。大多数MVs只有οpolymutants(647 657变异[98.5%])(表3),没有MVs polymutants从3或更多的变异;其余MVS分为1 7特定MVS (3 delta kappa 2 Delta-Zeta 10 ae, 25 Omicron-Alpha 3 Omicron-Delta 609 Omicron-Epsilon,和10 Omicron-Zeta MVS)。最后,海模式使得2227年病毒不明,其中包括1699οδ和变体。一致性和冲突率分别为92.776%(95%可信区间,92.775% - -92.777%)和0.004%(95%可信区间,0.003% -0.005%),分别为(表1)。通过正式的一致性κ分析,κ值已知的变异估计为0.96 (95% CI, 0.97 - -1.00)。
合并感染可能导致2的重组变异和重组的形成,这可能经验观察MV。识别特定的混合物,我们定义了一个特定的MV如果病毒进行至少1突变polymutant各自独有的变体。postidentification处理的应用程序标识一组潜在的重组(表3)。最频繁发生的重组类型在所有657 MVs Omicron-Epsilon(609年重组[92.7%])。在所有重组,可能最著名的和有争议的重组是Omicron-Delta重组。29日- - - - - -31日分析三角洲和οpolymutants在这些2重组(eTable 19补充1),我们发现这种病毒携带L452R和I82T polymutants独有的三角洲,而其余polymutants独特的买卖。同样,Omicron-Alpha重组进行T183I、S982A R52I, D3L,独特和S235F突变α,而Omicron-Zeta重组L71F, A119S, M234I突变泽塔(eTable 20所特有的补充1)。Omicron-Epsilon重组T85I, I65V、L452R R57H, T205I突变ε(eTable 21所特有的补充1)。分析流行病学分布Omicron-Epsilon重组,我们列出他们的地理和时间分布对收集日期和位置(eTable 22补充1)。
与分配Crosstabulating MVs血统(eTable 23补充1),我们注意到三角洲重组卡帕和Zeta变种被更频繁地分配到AY血统和ο重组被更频繁地分配BA血统。BA.4 Omicron-Epsilon重组被分配,而分配给BA.5 Omicron-Alpha重组。
343 592ο病毒,1699病毒被发现无法辨认的海因为观察到单没有任何先前观察到的一部分ο核心单体型。因此,我们假设一些ο病毒可能迅速获得新的突变。识别新的突变收购这些ο病毒,我们应用一种无监督学习技术来组织一个矩阵的氨基酸变异指标参考病毒,Omicron-specific突变和新获得的突变(图1)。Biclustering polymutant相似性与集群相关病毒(O1、O2、O3和O4)和集群οpolymutants (G1、G2、G3、G4)。除了病毒集群O4,大多数病毒显示零星的突变;然而,S371突起蛋白获得了新的突变,S371F,虽然大多数ο病毒表现出S371L突变,除了一些随机替换(Y, a, C,和删除)。E484、S477 T478、Q493 Y505, Q498, N501也获得了这种突变的较少。获得洞察S371突变,我们crosstabulated收集日期和国家,发现这种突变在欧洲首次测序,并蔓延到其他国家。组中的病毒O4是分配给血统和买卖,但没有polymutants上市,这可能与在GISAID数据处理错误。
在crosstabulating集群组(O1、O2、O3和O4)与血统(eTable 24补充1),我们发现大多数病毒在O1群属于BA.1 BA.2,但该组织还包括1 BA.4和3 BA.5变体,除了包括8 XE变体。病毒在O2主要是BA.1变异组,而在O3组主要是BA.2变体。
1126年在所有未赋值的病毒,病毒被认为无法辨认的524年海模式。这些未赋值的突变和无法辨认的病毒可能已经具备了小说。应用SLS,我们建模时间扩张polymutants的设置和选择56 polymutants明显和实质性的时间扩张(P值<。05一个nd LAMP马克斯> 0.5)。排除polymutants variant-specific核心polymutants的一部分,我们发现16新polymutants (N-E31、N-R32 N-S33, NS3-H78, NSP1-F143, NSP1-K141, NSP1-S142, NSP2-F356, NSP6-F108。NSP6-G107、NSP6-L105 NSP6-S106、spike-A684 spike-I68 spike-L24和spike-P25) (eTable 25补充1)。无监督学习的应用取得了6组polymutants时间趋势(eFigure 3补充1)。视觉上,8 polymutants (NSP1-K141 / S142 / F143 NS3-H78,和spike-L24 / P25 / I68 / A684)在组1中,3和4是扩大(图2),而剩下的polymutants不同灯水平(NSP2-F356 NSP6-L105 / S106 / G107 / F108,和N-E31 / R32 / S33)下降(图2)。L24 P25的蛋白质在更快的扩张轨迹,虽然H78 NS3正在迅速扩大。有两个高峰polymutants (I68和A684)和3 polymutants (K141、S142 F143)增加与NSP1重叠。其余8 polymutants不同灯水平下降。
在这个横断面研究中,我们描述了一个海模型识别小说SARS-COV-2变异与大约1000万病毒序列训练和验证。海应用到一组潜在的病毒收集3月15日至5月18日,2022年,我们发现海模型实现了93%的一致性与GISAID作业,不一致率为0.003%。海模型能够识别MVs突变和变异小说。来自340多个 000病毒、海模型确定7独特MVs (Omicron-Alpha、Omicron-Delta Omicron-Epsilon, Omicron-Zeta, ae, delta kappa,和Delta-Zeta)。也感兴趣的发现οpolymutants继续获得新的突变。例如,S371飙升的蛋白质中通常与S371L代替οS371F病毒但后来越来越取代。这些S371L / F突变,通常观察BA.1 BA.2,可能是与三聚物构象动态扰动的飙升。32此外,8小说突变(NSP1-K141 / S142 / F143 NS3-H78,和spike-L24 / P25 / I68 / A684)最近似乎越来越流行,可能需要仔细监测。
海治疗GISAID赋值作为标准则在培训过程中,尽管一些作业可能会误分类错误。幸运的是,这种misassignments可能很少在当前GISAID鉴于病毒是非常罕见的,直到最近几个月。因此,不完美的训练数据可能有对海的有效性的影响有限。此外,其经验性质依赖于统计学习策略,往往是健壮的,尽管一些误分类错误。
海的方法可能是经常用于识别重要的MVs未来。例如,三角洲变体携带突变与疾病严重程度和相关住院治疗风险。33虽然Delta-Omicron重组是罕见的迄今为止,高度传染性的变体,如买卖,如果重组与毒性变异,33会引起人们的关注。因此,早期识别的MVs可能有效的公共卫生计划的关键。
在这项研究中描述的走近互补GISAID phylogenic-based变体作业,及时识别小说变异的好处,否则可能不会成为明显的早期阶段。快速识别这些变体通过海,除了地理和时间定位,可以促进相关的特定的变异与临床结果通过电子健康记录应评税。24,34它有可能通知广泛的公共卫生策略,包括加强监测,诊断,治疗,甚至疫苗策略根据不同的单体型。
海模型表现出明显的优势的同时,我们需要注意这个研究的局限性。也许最重要的限制是一个识别MV不一定来自重组合并感染。另一种过程,再感染可能会导致一个MV。序列污染可能伪造一个MV,但这种MVs或许罕见(1或2张)。因此,确定MVs可能需要调查实验。另一个限制是,当前的海是训练和验证与全球在过去2年收集的数据。其识别性能需要优化特定的地理区域,它可能需要更新不断将新收集病毒序列。例如,自2022年5月18日,买卖已经演变成多个血统,海可能需要考虑这些血统。此外,我们的海模型有几个可调参数,这可能与识别性能。进一步的研究可能需要提高海识别的鲁棒性和性能。
在这个横断面研究中,我们描述了一个海模型检测小说SARS-COV-2变体。应用海344 901序列提交GISAID全球从3月15日到5月18日,2022年,我们发现一些新的全球MVs流传,最近扩大了几个小说突变。我们已经实现了海模型在基于web的计算器35供社区使用促进发现小说变异。
发表:2023年1月5日。
发表:2023年2月21日。doi:10.1001 / jamanetworkopen.2023.0191
开放:这是一个开放的分布式根据文章CC-BY许可证。©2023赵LP et al。狗万体育下载地址《美国医学会杂志》网络开放。
相应的作者:赵卢Ping,博士,公共健康科学部门,弗雷德哈钦森癌症研究中心,1100年费尔文Ave N,西雅图,华盛顿州98109 (lzhao@fredhutch.org);劳伦斯·科里,医学博士,疫苗和传染病部门,弗雷德哈钦森癌症研究中心,1100年费尔文Ave N,西雅图,华盛顿州98109 (lcorey@fredhutch.org)。
作者的贡献:l .赵博士已经完全访问所有的数据研究和负责数据的完整性和数据分析的准确性。
概念和设计:杰罗姆·l·赵科恩,佩恩,科里。
数据的采集、分析或解释:l .赵科恩,m .赵,玛德琳,Lybrand,格拉提神,杰罗姆。
起草的手稿:l .赵科恩,m .赵Lybrand佩恩。
关键的修订手稿的重要知识内容:l .赵科恩,玛德琳,佩恩,Lybrand,格拉提神,杰罗姆,科里。
统计分析:l .赵。
获得资助:格拉提神,杰罗姆,科里。
行政、技术或材料支持:科恩,m .赵佩恩,杰罗姆。
监督:Jerome Cohen,科里。
利益冲突的披露:没有报道。
资金/支持:这项研究是听UM1赠款支持AI68614和听UM1 AI068635来自美国国立卫生研究院的国家过敏症和传染病研究所。
资助者的角色/赞助商:美国国立卫生研究院的国家过敏症和传染病研究所没有参与这项研究的设计和实施;的收集、管理、分析和解释数据;准备、审查或批准的手稿;并决定提交出版的手稿。
数据共享声明:看到补充2。
额外的贡献:作者要感谢所有个人和附属实验室病毒序列数据了——全球共享禽流感数据项目(GISAID) 5月18日,2022年,同样在GISAID那些组装和组织这个庞大的数据资源,为国际社会了解SARS-COV-2。另外,我们要感谢克雷格解决,女士(弗雷德哈钦森癌症研究中心),和丹特南鲍姆(Fred Hutchinson癌症Centernce(海),通过弗雷德哈钦森癌症中心。他们没有弥补这些贡献。
14。
希尔V O ' toole,, Pybus OG,等;英国COVID-19基因组学(COG-UK)财团;基因网络监测在南非(NGS-SA);Brazil-UK CADDE基因网络;瑞士Viollier测序联盟;圣地亚哥搜索联盟;国家参考实验室的病毒;SeqCOVID-Spain;丹麦Covid-19基因组联盟(DCGC);传染性疾病基因网络(CDGN); Dutch National SARS-CoV-2 surveillance program; Division of Emerging Infectious Diseases (KDCA). Tracking the international spread of SARS-CoV-2 lineages B.1.1.7 and B.1.351/501Y-V2 with grinch.
威康开放Res。2021;6:121。doi:
10.12688 / wellcomeopenres.16661.2
PubMed
谷歌学术搜索
Crossref