女子初尝黑人巨嗷嗷叫_亚洲JLZZJLZZ少妇_妈妈的朋友1在线观看_久久精品色妇熟妇丰满人妻5O

關注公眾號

關注公眾號

手機掃碼查看

手機查看

喜歡作者

打賞方式

微信支付微信支付
支付寶支付支付寶支付
×

NGS體細胞突變檢測兩三事

2021.6.29


二代測序(Next Generation Sequencing, NGS)是一個強大的功能平臺,它可以同時給數以萬計的DNA分子進行測序。由于這種可以多個樣本同時測序的能力,在個性化醫療、遺傳疾病和臨床診斷等方面,二代測序也就是高通量測序開創了革命性的領域。但是,對于癌癥分子診斷、治療和監測等需要檢測低頻基因變異的領域,二代測序錯誤是一種可能影響變異檢測結果的關鍵混雜因素。

我們常用的體細胞突變(somatic mutation)檢測軟件包括:mutect2、strelka、varscan等。那么對于突變檢測,我們還有哪些要注意呢?

一個典型的NGS工作流程包含多個步驟,包括樣品處理、DNA提取、PCR擴增、上機測序。這些步驟中的每一步都可能引入錯誤。例如,樣品處理過程中的DNA損傷可引起C>A/G>T錯誤,DNA提取或片段化過程中甲基化胞嘧啶自發脫氨成尿嘧啶可引起C>T/G>T錯誤,另外,目標富集PCR及測序步驟也會引入一些錯誤。

在體細胞突變檢測中,你是否會注意一些異常現象,偶爾會發現一些突變被質控掉了,但這是個例嗎?回顧數據會發現,咦?好像同批次個別樣本也會有這個突變?例如序列CAGCCGCATCCACCGGTAGCTCTTCTTCTTCTTGCGCT,紅色是deletion區域。當然,這個突變被質控掉了,變異檢測軟件標記的str_contraction。但你是否有看數據的習慣呢?仔細觀察突變附近的基因組序列發現該缺失有四個重復單元,是短串聯重復區域(STR區域)的特征,這與注釋也相符。我們知道,STR檢測一般會有滑脫現象,等位基因數值越大(重復的單元數越多)滑脫越多,而等位基因數小的理論上滑脫的可能性很低。

表1 異常體細胞突變示例

132539tpx4wnlppuxrn3nl.png

并且對于不同的基因組版本都存在這個現象。另外,由于該突變在同一批數據的多個樣本中發現,突變頻率較低。到底是捕獲探針(原材料)的問題呢?還是STR區域的問題?還是NGS手段的問題?重新設計多重PCR引物,對樣本進行檢測發現與捕獲探針一致,對NGS各個平臺、公司的數據回溯分析,包括腫瘤樣本和正常樣本,發現超過20%的數據(正常對照)包含這個位點,而且頻率都比較低(1%上下浮動)。

表2 不同公司不同產品不同測序平臺分析

132539fm1hqr32bntowabn.png

132539tpx4wnlppuxrn3nl.png

因此判定這個位點是NGS系統性的誤差。那就要考慮基因STR區域本身的特點造成的,STR到底是個什么東東呢,為什么會有這種詭異的影響?讓我們來解開它神秘的面紗。短串聯重復序列(Short tandem repeats, STR),又稱微衛星DNA(Microsatellite DNA),通常是基因組中由1~6個堿基單元組成的一段DNA重復序列,是廣泛存在于真核生物基因組中的核苷酸重復序列。由于重復單位及重復次數不同,構成了STR基因座的遺傳多態性。每個STR由結構包括:具有短重復單元的核心區、核心區兩側保守的側翼區

132539bkejtj6qeqgqgzrs.png

圖1 STR結構示意圖


132539awe6eytz6we2idui.png

圖2 微衛星的滑鏈錯配突變模型



STR產生突變的可能機制
目前主要認為滑鏈錯配是短串聯重復序列突變的主要機制。
在DNA復制合成的過程中,新生鏈和模板鏈之間在微衛星重復區域可能發生錯配,使得一個或者幾個重復單位形成環狀,未能參與配對。如果未配對的重復單位位于新生鏈,則最終得到的新生鏈未配對重復單位數目比模板鏈多。反之,如果未配對的重復單位位于模板鏈,則最終得到的新生鏈未配對重復單位數目比模板鏈少。
有絲分裂過程中DNA鏈之間的錯配引起的復制滑動被認為是導至STR產生的較為常見原因,并且依據不同復制單元大小的不同以及不同物種之間,復制滑動發生的概率也不相同。
滑移率與STR的表觀突變率不同。體外實驗表明,DNA滑移率非常高。但在體內,大部分DNA環被錯配重配對系統識別和消除。結果表明,功能性錯配修復系統可使STR突變率降低100~1000倍。因此,觀察到的STR突變率取決于滑移率和修復系統糾正不匹配的效率。常用的STR基因座突變率在0.1%~0.5%。
關于突變產生的更深入的生物學機制,可參考《轉錄與復制“撞車”或“追尾”導至基因組畸變--突變產生的機制》一文,另外人體DNA在重組過程中也會產生突變,但是正常人體是具有修復功能的,很有意思對不對,如果你想了解更多,可閱讀《研究人類疾病?研究生物進化?從學習了解DNA重組修復開始!》一文。
我們再來分析上面案例,是GATK等變異檢測軟件中對變異的一種過濾注釋,在GATK中稱為hard filter,clustered_events的意思是多個變異近距離聚集出現的現象,一般來說clustered_events是一種不真實變異信號。比如可能是同源序列引起的假突變。

132540g5r5i5eca5iaz70v.png

圖3 CNV引起的clustered_events
體細胞檢測我們通常會采用配對樣本分析,但對于這種假突變,正常對照并不一定能完全測到這些位點,因此很多背景是無法去除點的,這時,構建一組正常樣本庫(Panel of Normals,PON)對突變進行過濾,就顯得很重要了。如果某個突變在這一組正常樣本中以一定的較高頻率出現,就認為這個突變為系統錯誤引起的,可以進行過濾,例如下圖中所有位點均為case-control方式檢測出的位點,底色為白色的行表示真實位點,其余位點均為非真實位點,沒有被case-control方式過濾掉,藍色表示可以被PON庫過濾掉的位點。

132540ohlszi6n61i4t43r.jpg

圖4 PON庫比control多過濾掉的假突變示例
再回到clustered_events這塊,如上面圖3中的突變真實并不存在,數據庫中沒有記錄,有可能是基因組上相似區域的序列同時比對到同一位置產生,被標記為clustered_events,可以按照指標被過濾掉;而下面圖5中的突變是真實存在的,在COSMIC數據庫中有記錄,雖然標記為clustered_events,但是被默認指標過濾掉。

132540r8zg6u42v6ptx4k0.png

132540cp21x8p8pgk2dk11.png

圖5 MNP識別成clustered_events
回到這個位點,我們再看下clinvar、dbsnp、cosmic都有記錄。對于胚系突變,clinvar中有記錄但結論沖突,ExAC等數據庫也有但非常罕見,dbsnp中每個記錄都沒有驗證信息,也并沒有allele balance信息。對于體細胞突變,cosmic中有但信息也不多。這個位點是否值得懷疑?當然,并不排除真的有樣本是存在這個突變,大家可以探討。

132540dohqo8dbvqoyyyxb.png

圖6 Clinvar信息

132540n5cu5u87zy2onlpp.png

圖7 dbsnp信息

132540jgmqgdq1g1ejj8fn.png

圖8 Cosmic信息
如果按照默認的軟件指標對變異進行過濾可能會造成假陽或假陰,也就是造成檢測錯誤,而且錯誤還可能來源于基因組組裝錯誤(干試驗+濕實驗)。所以軟件質控并不是萬用的,對于體細胞突變檢測,即使是配對樣本,我們也需要PON,而對于假陰性,我們同樣需要累積(包括cosmic公共數據庫使用和內部積累),平臺的數據累積才是最合適的質控。臨檢的分析雖沒有動植物科研的多樣化手段和各種美圖顯得復雜,但是我們對準確度的要求非常高,開展檢測一定要慎重。


參考文獻
Ma X, Shao Y, Tian L, et al. Analysis of error profiles in deep next-generation sequencing data[J]. Genome biology, 2019, 20(1): 50.
Temple-Smolkin R L, Voelkerding K V, Nikiforova M N. Guidelines for Validation of Next-Generation SequencingeBased Oncology Panels[J]. 2017.


推薦
關閉