中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心大數(shù)據(jù)技術(shù)與應(yīng)用發(fā)展部與中科院微生物研究所等,在微生物領(lǐng)域數(shù)據(jù)庫(kù)及其分析系統(tǒng)建設(shè)方面取得新進(jìn)展,提出了一種利用語(yǔ)義網(wǎng)技術(shù)構(gòu)建知識(shí)圖譜的方法,可將冠狀病毒相關(guān)的毒株、基因組、蛋白序列、蛋白結(jié)構(gòu)、抗體、文獻(xiàn)和專(zhuān)利等多源異構(gòu)數(shù)據(jù)映射至資源描述框架(RDF),并構(gòu)建了基于語(yǔ)義網(wǎng)框架的冠狀病毒知識(shí)圖譜數(shù)據(jù)庫(kù)gcCov。gcCov包含六千多萬(wàn)條語(yǔ)義三元組,通過(guò)多源異構(gòu)數(shù)據(jù)的語(yǔ)義整合,支持大規(guī)模數(shù)據(jù)驅(qū)動(dòng)的知識(shí)發(fā)現(xiàn),具備對(duì)基因、結(jié)構(gòu)、抗體等數(shù)據(jù)進(jìn)行相關(guān)性分析的能力,有助于推動(dòng)未來(lái)對(duì)基本病毒機(jī)制以及藥物和疫苗設(shè)計(jì)的研究。相關(guān)研究成果發(fā)表在mLife上。
數(shù)據(jù)處理流水線示意圖
近幾十年來(lái),冠狀病毒持續(xù)威脅全球公共衛(wèi)生安全。關(guān)于新型冠狀病毒的研究十分廣泛,相關(guān)出版物的數(shù)量也迅速增長(zhǎng)。海量的科研數(shù)據(jù)促使將不同類(lèi)型的研究整合到一個(gè)可搜索的語(yǔ)義互聯(lián)的數(shù)據(jù)集,這頗具挑戰(zhàn)性。目前,可用的冠狀病毒數(shù)據(jù)庫(kù)主要集中在基因組分析領(lǐng)域(如CovDB1和ViPR2)或出版物領(lǐng)域(如LitCovid3)。而這些數(shù)據(jù)庫(kù)沒(méi)有建立基因組數(shù)據(jù)和其他類(lèi)型信息(如論文、專(zhuān)利和抗體)之間的相關(guān)性,阻礙了進(jìn)一步的知識(shí)發(fā)現(xiàn)。
語(yǔ)義網(wǎng)能夠?qū)⒎植际骄W(wǎng)絡(luò)資源集成到共享本體的知識(shí)庫(kù)中,研究對(duì)象之間的潛在關(guān)系,是生物醫(yī)學(xué)數(shù)據(jù)集成的有效解決方案。為了分析海量數(shù)據(jù)之間的相互關(guān)系,該研究設(shè)計(jì)了一套流水線方法,將不同來(lái)源的數(shù)據(jù)整合到語(yǔ)義網(wǎng)框架中。基于這一方法,該研究構(gòu)建了gcCov數(shù)據(jù)庫(kù),使用關(guān)聯(lián)開(kāi)放數(shù)據(jù)(Link Open Data)提供有關(guān)冠狀病毒的廣泛信息和關(guān)聯(lián)關(guān)系。gcCov是目前第一個(gè)也是唯一使用關(guān)聯(lián)開(kāi)放數(shù)據(jù)并基于語(yǔ)義網(wǎng)框架發(fā)布的冠狀病毒數(shù)據(jù)庫(kù),有助于科學(xué)家檢測(cè)鏈接數(shù)據(jù)之間的聯(lián)系,從而發(fā)現(xiàn)隱藏在海量數(shù)據(jù)中的新知識(shí)。gcCov為當(dāng)前的預(yù)防和治療策略提供了線索,是滿足冠狀病毒研究日益增長(zhǎng)的信息需求的重要工具。
相關(guān)新聞推薦
1、一氧化碳支持微生物厭氧還原脫氯,拓展脫鹵擬球菌生長(zhǎng)條件的多樣性
3、牦牛源產(chǎn)氣莢膜梭菌qinghai-12的生化特征及生長(zhǎng)曲線測(cè)定(二)