微生物專題 | 16S分析內容那么多,哪些是文章必須的內容?
微生物16S結題報告里面的分析內容非常豐富,包含各種復雜的分析方法、算法和統計學概念。本文根據已發表文獻(16S或者16S+代謝組)中出現的次數,從中挑出以下7項常見分析內容進行重點解析,助您從冗長的結題報告中快速篩選出核心分析內容,用于文章撰寫。
1. 相對豐度柱形圖(用于查看優勢物種類型和豐度)
根據物種注釋結果,選取每個樣本或分組在各分類水平(Phylum、Class、Order、Family、Genus)上最大豐度排名前10 的物種,生成物種相對豐度柱形累加圖,以便直觀查看各樣本在不同分類水平上,相對豐度較高的物種及其比例。
■?■■■■
門水平相對豐度柱形圖(左圖為樣本,右圖為組)
橫坐標是樣本名(組名);縱坐標(RelativeAbundance)表示相對豐度;Others表示圖中這 10個門之外的其他所有門的相對豐度之和
2. α多樣性(用于分析樣本內物種多樣性)
α多樣性用于分析樣本內(Within-community)的微生物群落多樣性,通過單樣本的多樣性分析(Alpha多樣性)可以反映樣本內的微生物群落的豐富度和多樣性。在結題報告中,采用7種常用指數來度量α多樣性:Observedspecies、Chao1和Ace反映樣本中物種豐富度,但不考慮每個物種的均勻度(物種的占比情況);Shannon、Simpson、goodscoverage和PDwhole tree即反映物種的豐富度也反映物種均勻度。
同時,α多樣性指數箱型圖,用于分析α多樣性組間差異,可以直觀的反映組內物種多樣性的中位數、離散程度、最大值、最小值、異常值。通過T-test、wilcox、Tukey、Kruskal-Wallis檢驗(只有 2個分組時進行 T-test和 wilcox秩和檢驗,分組大于 2時進行 Tukey和 Kruskal-Wallis檢驗)分析組間物種多樣性差異是否顯著。以observed_species 和shannon指數為例,其組間差異分析的箱形圖如下:
■?■■■■
observed_species和shannon指數組間差異箱形圖
3. β多樣性(用于分析樣本間物種組成差異)
β多樣性是度量不同樣本間菌群組成的相似度大小的指標,即關注各樣本間的菌群組成差異。只有當樣本(組)間菌群組成存在差異,才有可能進一步探討菌群與疾病(不同處理條件)的關系。在報告中,采用PCA、PCoA、NMDS三種分析方法來考察和區分樣本間的菌群組成差異。
首先根據所有樣本的物種注釋結果和OTUs的豐度信息,將相同分類的OTUs 信息合并處理得到物種豐度信息表(ProfilingTable)。同時利用 OTUs之間的系統發生關系,進一步計算Unifrac 距離(UnweightedUnifrac)。Unifrac距離是一種利用各樣本中微生物序列間的進化信息計算樣本間距離,兩個以上的樣本,則得到一個距離矩陣。然后,利用OTUs 的豐度信息對Unifrac 距離(UnweightedUnifrac)進一步構建Weighted Unifrac 距離。最后,通過多變量統計學方法主成分分析(PCA,PrincipalComponent Analysis),主坐標分析(PCoA,PrincipalCo-ordinates Analysis),無度量多維標定法(NMDS,Non-MetricMulti-Dimensional Scaling),非加權組平均聚類分析(UPGMA,UnweightedPair-group Method with Arithmetic Means)分析以及Beta 多樣性指數組間差異分析等方法,從中發現不同樣本(組)間的差異。
■?■■■■
β多樣性分析(PCA、PCoA、NMDS)
上圖中每一個點代表一個樣本,相同顏色的點來自同一個分組,兩點之間距離越近表明兩者的物種組成結構越相似,落構成差異越小。PCA/PCoA圖中:橫坐標表示主成分1,縱坐標表示主成分2,百分比表示主成分對樣本差異的貢獻值;NMDS圖中:Stress小于0.2時,說明可以準確反映樣本間的差異程度。由于每個項目的實驗設計和樣本菌群組成差異巨大,無法預先知道哪種β多樣性分析方法是將樣本間菌群差異區分開的最優方法。因此,在報告中提供了多種β多樣性分析方法和圖片,在撰寫文章時,您只需從中選出最能解釋生物學問題的圖片展示在文章中即可。
4. Lefse分析(篩選Biomarker)
通過前面的分析找到有顯著差異的兩組之后,需要知道兩組之間的差異是由哪些菌群引起的,即差異微生物的篩選,也是biomarker的篩選。LefSe分析(LDAEffectSize)是一種用于發現和解釋高維度生物標識(基因、通路和分類單元)的分析工具,可以用于進行兩個或多個分組的比較,它強調統計意義和生物相關性,能夠在組與組之間尋找具有統計學差異的Biomarker。
■?■■■■
左:LDA值分布柱形圖;右:物種分類學分枝圖
左圖LDA值分布柱狀圖中展示了LDA Score 大于設定值(默認設置為4)的物種,即組間具有統計學差異的Biomarker。展示了不同組中豐度差異顯著的物種,柱狀圖的長度代表差異物種的影響大小(即為LDAScore),柱狀圖的顏色代表各自的組別;右分支圖中,由內至外輻射的圓圈代表了由門至屬(或種)的分類級別。在不同分類級別上的每一個小圓圈代表該水平下的一個分類,小圓圈直徑大小與相對豐度大小呈正比。著色原則:無顯著差異的物種統一著色為黃色,差異物種Biomarker跟隨組進行著色,紅色節點表示在紅色組別中起到重要作用的微生物類群,綠色節點表示在綠色組別中起到重要作用的微生物類群,若圖中某一組缺失,則表明此組中并無差異顯著的物種,故此組缺失。圖中英文字母表示的物種名稱在右側圖例中進行展示
5. 隨機森林分析(biomarker驗證)
隨機森林屬于集成類型的機器學習算法,利用自助聚集(bootstrapaggregating)重抽樣方法從原始樣本中有放回的抽取多個樣本作為訓練集,對訓練集進行決策樹建模,然后組合多個決策樹的預測,通過投票得出最終預測結果。
■?■■■■
變量重要性排序圖
左圖MeanDecreaseAccuracy衡量把一個變量的取值變為隨機數,隨機森林預測準確性的降低程度。該值越大表示該變量的重要性越大。橫坐標:平均下降準確度,縱坐標:排名前50重要物種;右圖MeanDecreaseGini通過基尼(Gini)指數計算每個變量對分類樹每個節點上觀測值的異質性的影響,從而比較變量 的重要性。該值越大表示該變量的重要性越大。橫坐標:平均下降Gini指數,縱坐標:排名前50重要物種。
根據隨機森林方法篩選出的最佳模型,繪制ROC曲線,ROC是一種常用的統計學分析方法,在醫學研究中主要用于評價診斷試驗的效能。在報告中,通過繪制ROC曲線,并計算ROC曲線下面積(AUC),來確定哪種菌(群)具有最佳的診斷價值。
■?■■■■
ROC曲線
橫坐標:假陽性(Specificity)比例,縱坐標:真陽性(Sensitivity)比例,ROC曲線越靠近左上角,試驗的準確性就越高。若AUC值為1.0,反映出對兩個群組的完美區分,且不存在預測誤差。若AUC值在1.0和0.5之間,在AUC>0.5的情況下,AUC越接近于1,說明診斷效果越好。AUC在0.5~0.7時有較低準確性,AUC在0.7~0.9時有一定準確性,AUC在0.9以上時有較高準確性。AUC=0.5時,說明診斷方法完全不起作用,無診斷價值。AUC<0.5不符合真實情況,在實際中極少出現。
6. Network分析
共發生網絡圖為研究復雜微生物環境的群落結構和功能提供了新的視角。由于不同環境下微生物的共發生關系截然不同,通過物種共發生網絡圖,可以直觀看出不同環境因素對微生物適應性的影響,以及某個環境下占互作主導地位的優勢物種、互作緊密的物種群,這些優勢物種以及物種群往往對維持該環境的微生物群落結構和功能穩定發揮著獨特以及重要的作用。
■?■■■■
Network圖
不同節點代表不同屬,節點大小代表該屬的平均相對豐度,相同門的節點顏色相同(如圖例所示),節點之間的連線的粗細與物種互作的相關系數絕對值正相關,連線顏色和相關性的正負對應(紅色正相關,藍色負相關)
7. 功能聚類熱圖
通過不同軟件和數據庫對16S測序數據進行功能預測,能初步分析菌群組成變化與疾病或表型是如何關聯在一起的,邁維代謝可以提供4種功能預測軟件供大家選擇,PICRUSt2、Tax4Fun2、FAPROTAX、BugBase。如果需要系統研究菌群的基因及其功能,建議做宏基因組測序。
功能聚類熱圖是根據樣品在數據庫中的功能注釋及豐度信息,選取豐度排名前35 的功能及它們在每個樣品中的豐度信息繪制熱圖,并從功能差異層面進行聚類。
上圖中橫向表示功能,縱向表示樣本,格子表征相對豐度,顏色越紅表示相對豐度越高,越藍表示相對豐度越低,同時對功能和樣本做了聚類。從中可以篩選出與疾病或者表型相關的功能與組間差異的關系,分析菌群組成變化與疾病或表型是如何關聯在一起的。
到這里,微生物組16S文章撰寫需要的主要結果就齊全了,結題報告的其他分析內容也都有各自的生物學意義,個性化的分析內容會根據研究者的具體需求進行提供。
99%的代謝組學研究者都在閱讀下文:
●視頻實操SCI作圖課(3):OPLS-DA分析,組間差異的挖掘神器
●干貨 | 代謝組數據預處理(二):巧踢離群值,讓你的數據會說話
●大爆發!平均IF>10 | 項目文章(大灣區)遍地開花
●大爆發!平均IF=15 | 項目文章(武漢地區)遍地開花
客服微信:metware888
咨詢電話:027-62433042
郵箱:support@metware.cn
網址:www.metware.cn
我就知道你“在看”