文章必備 葉綠體基因組高階分析內容彙總

2023-10-19 18:51:44 字數 5021 閱讀 3140

葉綠體普遍存在於植物體中,葉綠體基因組是乙個典型的雙鏈環狀dna分子,乙個植物當中含有多個葉綠體,乙個葉綠體中含有12個cpdna分子。

常見的植物葉綠體基因組大小一般在150-160 kb左右,藻類會略小一些,在80-100 kb左右,一般由四部分組成,包括乙個lsc和乙個ssc,以及二者之間的兩個ir區。隨著高通量測序技術的快速發展,利用葉綠體來研究細胞器的起源、結構、進化正受到越來越廣泛的關注。

圖1 具有代表性的金腰屬葉綠體基因**譜

凌恩生物負責對每乙個樣本的葉綠體dna(cpdna)進行富集及抽提,有自主研發的細胞器提取技術,提取經驗豐富。有專業團隊負責跟進每乙個專案,從細胞器dna製備、hiseq建庫及測序、後續生物資訊分析,直至為客戶提供滿意的結果。

本期主要介紹葉綠體基因組的一些高階分析內容。

共線性分析

共線性是指遺傳學中的基因連鎖關係,是不同物種染色體上同源基因以相同順序排列的現象。兩個物種之間的共線性程度可以作為衡量他們之間進化距離的尺度,可以知道物種間的親緣關係。對基因組間的區域性共線性塊進行相似度、重排、倒置等現象的分析可以來闡述物種演化中發生的事件。

圖2 葉綠體基因組mvista共線性分析系統進化樹分析

系統發育樹(phylogenetic tree)又稱為系統進化樹,是用一種類似樹狀分支的圖形來概括各物種之間的親緣關係,可用來描述物種之間的進化關係。通過系統進化樹分析可以找出不同物種間的進化關係,理解祖先序列與其後代之間的關係,同時也可以估算一組共有共同祖先的物種間的分歧時間。

細胞器基因組非常保守,常用來構建系統發育進化樹來研究動植物的物種分類和進化地位。凌恩生物構建細胞器系統發生樹的方法有以下兩種:

1)基於樣品與參考基因組的群體snp矩陣構建進化樹:對於每乙個樣本,按照相同順序將所有snp相連,獲得相同長度的fasta格式的序列(其中乙個為參考序列),作為輸入檔案用於進化樹構建。(2)基於core基因構建進化樹:對細胞器基因組鑑定出來的單拷貝core基因,利用muscle v3.8.31軟體進行蛋白多序列的比對,比對結果用於進化樹構建。

圖3 基於cppcgs+nrdna矩陣的金腰屬系統發育樹[1]選擇壓力分析

選擇壓力是指外界施加給某物種生物進化過程中的壓力,使得物種適應自然環境。在遺傳學中,ω=ka/ks或者dn/ds表示的是非同義突變(ka)和同義突變(ks)之間的比率。一般認為,同義突變不受自然選擇,而非同義突變則受到自然選擇作用。通常認為,ω 1表明有正選擇(positive selection)效應,即有些有利突變正受到選擇;ω 1不受選擇,即中性進化(neutral evolution);如果0 < 1,則認為有純化選擇(negative or purifying selection)作用,ω值越小,說明受到的負選擇壓越大,氨基酸序列越保守。

圖4 金腰屬的選擇壓力分析[1]葉綠體基因組的ir區擴張與收縮

葉綠體基因組ir區指的是葉綠體基因組中2個反向重複區域(irs)。葉綠體基因組的ir區域被認為是最保守的區域,但其邊界區序列可能會向外延伸擴張,也可能向內部收縮,從而導致相關基因拷貝數的變化,或者導致邊界區域假基因的產生,這是葉綠體基因組進化中的共有現象,也是其長度變異的主因。

通過ir區的擴張與收縮研究,可以獲悉導致相關基因拷貝數的變化,或者導致邊界區域假基因的產生,以此來描述造成不同譜系間葉綠體基因組大小差異的原因。

圖5 ir區的擴張與收縮[2]結構變異檢測

細胞器基因組進行結構變異檢測主要有三種:snp、indel和sv。與參考基因組比對,分析近源物種細胞器基因組之間的變異情況,能夠更好的對個體或群體進行差異性分析。

snp(單核苷酸多型性)是指由單個核苷酸的變異所引起的dna序列多型性。在基因組dna中,任何鹼基均有可能發生變異,因此snp既有可能在編碼基因內,也有可能在非編碼序列上,位於編碼區內的snp(coding snp,csnp)因其可能影響個體的功能而備受關注。

indel是dna序列的插入(insertion)和缺失(deletion)現象的總稱,狹義的indel表示1~10bp的短indel。在基因組編碼區域,indel的發生可能會引起移碼突變、氨基酸改變、假基因的出現等等現象。這裡分析的是狹義的indel。

基因組結構變異(sv,structural variation)通常是指基因組內dn**段缺失、插入、重複、倒位、異位。使用mummer軟體對目標基因組和參考基因組進行比對,再使用lastz對區域間進行比對,從區域比對結果中查詢sv。

圖6 全基因組結構變異型別配對圖核苷酸多型性(pi)分析

核苷酸多型性(pi)是衡量特定群體多型性高低的引數,是指在同一群體中隨機挑選的兩條dna序列在各個核首酸位點上核昔酸差異的均值。核苷酸多型性(pi)能揭示不同物種核酸序列的變異大小,變異度較高的區域可以為種群遺傳學提供潛在的分子標記。例:基因和基因間區的核苷酸多樣性分析。

圖7 44個金腰屬物種cp基因組的核苷酸多樣性(pi)分析[1]共有基因和特有基因分析

所有樣本中都存在的同源基因稱為「共有基因」(core gene),去掉共有基因後得到的為非共有基因(dispensable gene),特有基因(specific gene)為只有該樣本特異擁有的基因。共有基因和特有基因很有可能與樣品的共性和特性相對應,可以作為樣本間功能差異的研究依據。

圖8 core-pan基因稀釋曲線

圖9 基因組的共有/特有基因數密碼子偏好性分析

某一特定密碼子在編碼對應氨基酸的同義密碼子中的相對概率,可以反應密碼子的偏好性程度。通過計算relative synonymous codon usage(rscu)獲得密碼子的偏好性值。研究密碼子的使用模式,對於探明物種進化壓力以及進一步的遺傳研究都有重要的意義。

圖10 烏頭屬物種密碼子偏好性分析[3]簡單重複序列ssr分析

簡單重複序列(**sequence repeat, ssr)又稱作微衛星序列(microsatellite, ms),是一類由1-6個核苷酸為基本單位多次重複而形成的dn**段。ssr數量豐富、多型性高、均勻覆蓋整個基因組、呈共顯性遺傳且檢測簡單,因此被作為第二代分子標記廣泛應用於遺傳圖譜構建、目標基因定位、遺傳多樣性研究、分子輔助育種、種質資源鑑定等領域。

圖11 薑科植物葉綠體基因組的簡單序列重複序列(ssr)分析[3]重複序列分析

重複序列被認為在基因組重組和重排中起重要作用,並且在某些群體中也包含有系統發育資訊。葉綠體基因組的重複序列包括串聯和散在重複,其中散在重複又稱為長重複序列,分為:正向重複(forward repeat)、反向重複(reverse repeat)、回文重複(palindromic repeat)和互補重複(complement repeat)四種型別。

圖12 長重復序列分類圖

參考文獻。1] a comprehensive analysis of chloroplast genome provides new insights into the evolution of the genus chrysosplenium. international journal of molecular sciences, 2023.[2] complete chloroplast genomes provide insights into evolution and phylogeny of zingiber (zingiberaceae). bmc genomics, 2023.[3] comparative analysis of the chloroplast genome for aconitum species: genome structure and phylogenetic relationships. frontiers in genetics, 2022.

基因組高通量編輯利器 sgRNA文庫細胞pool

sgrna質粒文庫經慢病毒感染等方式轉入目的細胞,所述細胞經抗性篩選,存活下來的細胞群稱為sgrna文庫細胞pool。隨著 crispr cas9基因編輯技術的迅速發展,crispr基因文庫篩選被用來精準篩選所需功能基因,已在藥物篩選 病毒感染以及腫瘤功能性基因篩選的實驗中發揮重要作用。泓迅科技推出...

全基因組甲基化測序WGBS技術介紹

dna甲基化是一種重要的表觀遺傳修飾形式,在細胞分化 發育和醫學中起到關鍵作用。全基因組甲基化測序 wgbs 是一種高解像度的測序技術,能夠檢測胞嘧啶 cytosine 鹼基的甲基化狀態,從而揭示dna的表觀遺傳訊號。本文將為您介紹wgbs的原理和流程,並 其在表觀遺傳學研究 疾病研究 個體差異和種...

院士點讚國際基因組學大會眼科大會

2023年國際基因組學大會眼科大會 the 6th icg eye 14日在瀋陽開幕,來自國內外基因組學 眼科學 生物醫學 生物製藥 投融資等領域專家學者,圍繞眼遺傳病與基因 研究進展 基因 的臨床試驗及應用進展 基因與大資料 眼遺傳病基因檢測技術新進展 數字眼健康產融發展等話題展開 中國工程院院士...