3月13日,英國曼徹斯特大學(xué)、牛津大學(xué)科研團(tuán)隊(duì)在學(xué)術(shù)期刊《美國科學(xué)院院刊》發(fā)表成果,他們開發(fā)出一種人工智能框架,能夠從大量數(shù)據(jù)中快速識別出未來可能存在風(fēng)險的病毒基因組,可識別和追蹤新冠肺炎病毒新型變體,有助于應(yīng)對病毒傳播。

英國使用人工智能來識別新冠病毒新變體-肽度TIMEDOO

自新冠肺炎爆發(fā)以來,全球已出現(xiàn)了多波新變種,傳播性、免疫反應(yīng)逃逸程度不斷增強(qiáng),導(dǎo)致疾病嚴(yán)重程度不斷增加。與許多其他RNA病毒一樣,新冠病毒突變率高、進(jìn)化速度極快,識別可能出現(xiàn)的病毒新株需要付出相當(dāng)大的努力??茖W(xué)家正努力研發(fā)新方法,試圖在阿爾法、德爾塔和奧密克戎等令人擔(dān)憂的新變種出現(xiàn)的最早階段就將其準(zhǔn)確定位,以采取例如精準(zhǔn)開發(fā)疫苗等更積極的應(yīng)對措施,在變異株形成之前消除它。

目前,全球共享流感數(shù)據(jù)倡議組織數(shù)據(jù)庫可提供所有流感病毒基因組數(shù)據(jù),并且有近1600萬個序列可使用。利用該數(shù)據(jù)庫,科學(xué)家采用系統(tǒng)發(fā)育分析方法,為追蹤各種病毒的進(jìn)化譜系和識別新病毒提供了“金標(biāo)準(zhǔn)”。但該方法計算成本高,隨著數(shù)據(jù)量增加而難以使用,且需要人工管理來命名新的病毒譜系。英國科研團(tuán)隊(duì)同時應(yīng)用基因序列表征和降維算法,通過對新冠肺炎病毒的基因序列進(jìn)行計數(shù),將其分解為較小的“數(shù)”(稱為3個序),并用數(shù)字表示。然后,利用機(jī)器學(xué)習(xí)技術(shù),結(jié)合可解釋聚類算法CLASSIX,根據(jù)單詞模式將相似的序列分組在一起,揭示大量序列之間的遺傳關(guān)系。該方法實(shí)現(xiàn)完全自動化計算,僅用兩天時間就處理了570萬個高覆蓋度序列。

科研團(tuán)隊(duì)表示,該研究驗(yàn)證了機(jī)器學(xué)習(xí)方法可能被用作早期發(fā)現(xiàn)新出現(xiàn)病毒變體的警報工具。與傳統(tǒng)方法相比,該方法的優(yōu)勢在于能夠管理更大數(shù)量級的序列,且成本低、可擴(kuò)展和可解釋。雖然不能替代當(dāng)前的系統(tǒng)發(fā)育分析方法,但可用作一種補(bǔ)充的、完全自動化的方法來識別和確認(rèn)新出現(xiàn)的變異株。此外,與其他聚類方法相比,CLASSIX算法產(chǎn)生的結(jié)果與現(xiàn)有的“金標(biāo)準(zhǔn)”方法更加一致,并且使用少量參數(shù),更容易優(yōu)化。

相關(guān)論文信息:https://www.pnas.org/doi/10.1073/pnas.2317284121

來源:中國科學(xué)報