高通量測序數據中病毒基因組的生物信息學分析方法探索.pdf_第1頁
已閱讀1頁,還剩71頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、病毒是一類只能夠在活著的宿主細胞內復制的感染源。病毒個體微小、構造簡單,除朊病毒(僅由蛋白構成)外,病毒均由一種作為遺傳物質的核酸(DNA或RNA)與蛋白質構成。病毒種類多樣,宿主范圍廣,具有細胞結構的生物均可以是病毒的宿主。病毒基因組作為病毒遺傳信息的載體,是研究病毒的核心數據。隨著高通量測序技術的普及,對病毒基因組進行高通量測序已成為研究病毒遺傳、進化的主要手段。面對高通量測序產出的大量數據,就要求生物信息學分析能夠盡可能多地挖掘出

2、其中病毒基因組的有效信息。本文的研究目的即是探索出不同數據類型下,高通量測序數據中病毒基因組的生物信息學分析方法。
  本文從課題組積累的高通量測序數據及分析需求出發(fā),探索了從高通量測序數據中挖掘病毒基因組中有效信息的分析方法。本文圍繞病原微生物,分析其測序數據中病毒基因組的相關信息,具體分為兩個部分:
  1、細菌高通量測序數據中溶原性噬菌體的分析;
  2、復雜測序樣品中的病毒發(fā)現及基因組分析。
  細菌高通

3、量測序數據中溶原性噬菌體的分析
  溶原性噬菌體是一類能夠整合入宿主菌基因組中,隨宿主菌的復制而傳代的病毒。在某些條件的誘導下,也能夠脫離宿主基因組,產生子代噬菌體釋放出來。溶原性噬菌體的復制特性決定了它具有介導基因水平轉移的功能,往往能夠對宿主菌的致病性產生重要影響,如德國發(fā)現的腸出血性大腸桿菌O104:H4的主要毒力基因就是由前噬菌體所編碼。本文以分離自足部潰爛病人的72株細菌基因組測序數據為研究對象,以溶原性噬菌體復制機制為

4、理論模型,研究發(fā)現新的溶原性噬菌體基因組及其整合特征,為了解噬菌體的生物學特性及防控高致病性細菌感染提供基礎。
  采用生物信息學軟件與自編程序相結合的方式進行數據處理與分析。使用NGS QC Toolkit v2.3.3對原始測序數據進行質量控制,去除短讀長及低質量數據。針對Ion Torrent平臺數據特點,選擇了商業(yè)軟件Newbler v3.0作為數據組裝軟件。使用perl腳本編程,搭建前噬菌體預測分析流程,對組裝得到的co

5、ntigs進行前噬菌體預測。為得到活躍的前噬菌體基因組,選用兩種輔助拼接工具,ContigScape插件顯示組裝后contigs之間的連接信息,商業(yè)軟件CLC Genomics Workbench9進行序列調整及拼接結果檢查。使用實驗室內部軟件對contigs進行連接。同時使用RAST在線注釋工具對得到的溶原性噬菌體基因組進行注釋。最后,綜合分析得到的溶原性噬菌體基因組結構、整合位點、進化關系等信息,挖掘其中的潛在信息。
  在7

6、2株細菌基因組數據中,共有11株細菌數據中發(fā)現了前噬菌體脫離細菌基因組進行復制的現象。對能夠脫離細菌基因組進行復制的噬菌體序列進行拼接,共得到14個活化的前噬菌體全基因組序列,其中11株與目前已知的噬菌體序列同源性很低,為本文新發(fā)現的噬菌體序列。新序列的發(fā)現表明本文研究方法可用于新溶原性噬菌體的發(fā)現,增加科研人員對噬菌體的認知。分析發(fā)現,整合狀態(tài)下噬菌體整合酶基因均與其整合位點緊鄰。溶原性噬菌體的整合位點序列長短特征不一,但表現出與其整

7、合酶具有相關性。同一整合位點可供多種具有相似整合酶的溶原性噬菌體整合,提供了前噬菌體預測的新思路。宿主為同一屬內的細菌的溶原性噬菌體具有相似的基因組結構。
  復雜測序樣品中的病毒發(fā)現及基因組分析
  由于病毒分離培養(yǎng)周期長,成功率低,我們常常要對一些復雜樣品進行高通量測序,然后獲取其中的有效病毒信息,這就給數據分析帶來了一定的挑戰(zhàn)。課題組近年來開展了使用高通量測序對臨床樣品進行病原檢測的工作,要求數據分析能夠快速準確地發(fā)現

8、臨床樣品中的病原。目前單一的生物信息學軟件不能滿足我們對于復雜測序樣品的分析需求,鑒于此開發(fā)了分析軟件《高通量測序數據病原體歸類分析軟件v1.0》。該軟件能夠對細菌、真菌、原蟲、病毒4種類型的病原進行檢測,同時在應對復雜樣品中已知或未知病毒的發(fā)現工作表現出良好的效果。
  復雜樣品中已知病毒的發(fā)現,以2016年7月北京發(fā)現的輸入性裂谷熱病例為例。通過使用分析軟件對測序數據分析,發(fā)現了大量的裂谷熱病毒序列,確認了裂谷熱病毒為致病原,

9、并在第一時間獲得了該株裂谷熱病毒的全基因組序列。該株裂谷熱病毒與2009年南非發(fā)現的Kakamas株同源性最高,進化分析提示該株病毒沒有發(fā)生重組。
  復雜樣品中未知病毒的發(fā)現,以勐海彈狀病毒的發(fā)現為例。該株病毒分離自云南勐海地區(qū)捕獲的白紋伊蚊,以C6/36細胞培養(yǎng)后,使用常見病毒引物無法鑒定出是何種病毒。通過對其高通量測序數據的分析,排除掉宿主細胞、其他細菌、病毒等干擾因素,獲得了該株病毒的全基因組序列。序列分析顯示其為一株新型

10、的彈狀病毒,命名為勐海彈狀病毒,與發(fā)現于秘魯的另外兩株蚊媒彈狀病毒最為相似。
  在對勐海彈狀病毒的基因組分析中,本文還對選取的93株彈狀病毒參考序列進行了病毒末端序列分析。發(fā)現其中的45株均具有短反向重復末端序列的特點,分布于不同的屬中??袢《緦賰染哂蟹浅R恢碌哪┒诵蛄小癆CGCTTAAC”,而Ephemerovirus、Vesiculovirus、Tibrovirus和Sprivivirus四個屬的病毒則均有“ACGAAGA

11、”的一致末端序列。病毒基因組的末端序列常常與其基因組復制相關,其末端序列往往是相對嚴格的,這表明短反向重復末端序列很可能是彈狀病毒科病毒基因組的一類特點。
  綜上,本文在現有病毒基因組分析方法的基礎上,提出了以細菌測序數據分析活化的前噬菌體全基因組及其整合位點的分析方法,能夠用于新溶原性噬菌體發(fā)現,為了解溶原性噬菌體提供新知識。開發(fā)了高通量測序數據病原體歸類分析軟件,取得軟件著作權,并在未知病原檢測中發(fā)揮良好的作用。通過數據分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論