隨著大家對生命未知領(lǐng)域的探索,越來越多的需要依靠測序技術(shù)對生物的過程、代謝的特性進(jìn)行解析。尤其是現(xiàn)在廣泛利用的二代測序技術(shù),也是基于短序列的測序方式,它能夠以一種較高性價比的方式,給廣大的科研工作者以及實際的生產(chǎn)過程中的工作人員,提供非常有用的信息。
這種測序技術(shù)需要我們對生物學(xué)過程,包括對計算機(jī)代碼有些理解的基礎(chǔ),其中會包含一些生物信息學(xué)領(lǐng)域的專屬名詞,甚至?xí)缶邆渚幊袒A(chǔ)。這也造成了大家對環(huán)境宏基因組的分析過程上手難度的增加。宏基因組的測序量,一般在6~10GB+,往往帶來的是對計算成本,尤其是計算時長高的消耗。基于北京超級云計算中心(以下簡稱北京超算)的算力資源和平臺,我們搭建了能夠?qū)Νh(huán)境宏基因組數(shù)據(jù)進(jìn)行分析的軟件和平臺,在這個平臺上能實現(xiàn)群落功能的分析,并且整合了宏基因組分箱技術(shù),以及基于深度學(xué)習(xí)的病毒組分析。
1Tb的數(shù)據(jù)大約100個樣本,每個樣本測序深度在10個G左右。單純使用服務(wù)器進(jìn)行分析大約需要150天,在基于北京超算搭建的宏基因組數(shù)據(jù)分析平臺上進(jìn)行計算,7-20天之內(nèi)就可以完成數(shù)據(jù)分析,大大的節(jié)約了時間成本和計算費(fèi)用成本。
北京超算能夠提供非常強(qiáng)的硬件支持,滿足計算需求的同時提供7X24小時的專屬客服支持。近幾年來通過與北京超算的合作達(dá)成了一些論文計算的分析過程,并發(fā)表了一些文章。
案例1 濕地植物根際錳氧化物強(qiáng)化氨氧化過程
在解析錳氧化過程中,利用宏基因組分析平臺,發(fā)現(xiàn)錳氧化過程和氨氧化過程存在耦合作用。錳氧化的過程中其實缺乏在濕地中的探索,我們在全國各個城市進(jìn)行濕地樣本收集。對根際土和非根際土進(jìn)行宏基因組測序,以及常規(guī)的理化指標(biāo)的測定。
可以看到,宏基因組的測序量大約是3.7個TB。19年底到20年上半年,我的整個服務(wù)器都在跑這個數(shù)據(jù)還沒有跑完。在開發(fā)了基于超算的計算流程和計算軟件后,兩個月內(nèi)完成了所有的計算任務(wù)。簡單分享一下我計算的成果。
我發(fā)現(xiàn)在蘆葦根際中錳氧化物的豐度含量比較高。錳氧化主要是微生物(介導(dǎo))的,所以我就好奇這個過程中到底有沒有錳氧化基因有一個富集呢?;虻呢S度是通過宏基因測序,然后加上計算獲得的。我在對它進(jìn)行不同分類比較的時候發(fā)現(xiàn),根際和非根際錳氧化基因的組成類型其實是不一樣的,植物根際可以顯著的富集幾種類型的錳氧化基因。
除此之外,濕地植物的根際核心微生物和錳氧化的含量,有些微生物是和它呈正相關(guān)的,有些是呈負(fù)相關(guān)的。正負(fù)相關(guān)的這些微生物中,最明顯的功能上的區(qū)別在于:正相關(guān)的這些微生物中有一部分是能夠執(zhí)行氨氧化過程的。同樣的,在人工濕地中我們發(fā)現(xiàn)了錳氧化物和鐵氧化物都是微生物群落結(jié)構(gòu)關(guān)鍵的驅(qū)動因子,同時,錳氧化物的含量和氨氮濃度之間呈非常顯著的正相關(guān)性。大家都知道氨氧化很大程度上是由微生物(介導(dǎo))的,尤其是在人工濕地水處理的過程中。在錳的氧化過程中,錳氧化物起到了非常關(guān)鍵的作用。它們二者之間到底有沒有比較強(qiáng)的關(guān)聯(lián)性呢?在生物學(xué)角度,我們對錳氧化基因和氨氧化基因之間進(jìn)行了線性的回歸分析,分析發(fā)現(xiàn)它們兩個之間有非常強(qiáng)的線性關(guān)系。是不是別的氮轉(zhuǎn)化的過程也和錳氧化的基因有這樣的相關(guān)性呢?我們把剩下的一些氮轉(zhuǎn)化過程的關(guān)鍵基因與錳氧化基因進(jìn)行了關(guān)聯(lián)分析,發(fā)現(xiàn)除了氨氧化基因,別的氮轉(zhuǎn)化基因并沒有和錳氧化基因形成顯著的線性相關(guān)性。
我們又通過自建amoA的數(shù)據(jù)庫,把執(zhí)行氨氧化過程的微生物分成氨氧化古菌、氨氧化細(xì)菌和完全氨氧化菌。通過比較分析,我們發(fā)現(xiàn)人工濕地中常規(guī)的水處理環(huán)境中,完全氨氧化菌的比重比較高,高于常規(guī)的氨氧化細(xì)菌,并且錳氧化基因的豐度也與完全氨氧化菌之間呈正相關(guān)性。
對環(huán)境的解析過程,最主要的目的之一是為了把它更好的應(yīng)用于污染治理過程中,在河北省晉州市龍門村,我們搭建了一個人工濕地的中試裝置。面向當(dāng)?shù)剞r(nóng)村的生活污水,我們在一些人工濕地中人為的向其中加入錳砂,即錳氧化物。我們發(fā)現(xiàn)加入的這部分錳氧化物可以提升氨氮的去除負(fù)荷,同時amoA的豐度也是得到了非常強(qiáng)的提升。
從自然發(fā)展到人為干預(yù)污染去除的過程中,由于前期使用超算獲得微生物相關(guān)的數(shù)據(jù),大大節(jié)省了分析的時間,有效提升了效率。
案例2 飲用水快速濾池完全氨氧化過程
在另一個水處理的環(huán)境中,我們考察了飲用水的快速砂濾池,在這個工程水處理的裝置中微生物的一些過程。同樣,我們對它進(jìn)行了采樣和測序,數(shù)據(jù)集大約是1個TB的測序深度。同樣在過程中,我們發(fā)現(xiàn)氨氮轉(zhuǎn)化比較好,而且和amoA的基因豐度也形成比較線性的關(guān)系。通過數(shù)據(jù)庫比對分析發(fā)現(xiàn),其中完全氨氧化菌起到了非常關(guān)鍵和重要的作用。它和錳的轉(zhuǎn)化,錳氧化基因的轉(zhuǎn)化過程,一同協(xié)同對整個砂濾池中的污染物形成了降解。
利用基于北京超算開發(fā)的宏基因組數(shù)據(jù)分析平臺,能夠快速的提取其中的微生物信息,并對病毒數(shù)據(jù)進(jìn)行分析,解析水環(huán)境中相對完整的相互作用的網(wǎng)絡(luò);通過開發(fā)基于AI深度學(xué)習(xí)的算法,能夠?qū)κ删w形成非常好的識別,包括對宿主的預(yù)測。
北京超算AI智算云平臺可以提供非常豐富的GPU的計算資源,科研工作者無需自建資源即可完成建模任務(wù),幫助沒有深度學(xué)習(xí)經(jīng)驗的同學(xué)實現(xiàn)對病毒的解析。
(報告現(xiàn)場)
(本文內(nèi)容整理自:中國科學(xué)院生態(tài)環(huán)境研究中心助理研究員王東麟老師在第四屆“氮素生物地球化學(xué)循環(huán)”學(xué)術(shù)論壇的報告實錄)
相關(guān)稿件