• 熱線電話:010-56107385

常見問題答疑

聯系方式

地 址:北京市昌平區北清路生命科學園博雅CC -9號樓2層
電 話:010-56107385
傳 真:
郵 箱:support@ori-gene.cn

常見問題答疑

您現在的位置:首頁 > 技術支持 > 常見問題答疑
生物信息分析之聚類分析

         今天給大家講一下聚類分析。聚類分析在生物信息中用的比較多,但是反應在文章里其實沒有單獨的圖表,所以大家對它的感受不深,一般也很少關注。所以這篇文章看起來遠遠不如前面的熱圖和PCA分析來的好玩兒,但是作為信息分析的基礎內容,不講不合適。

聚類分析已經在很多領域得到了廣泛應用,如數據挖掘、統計學、圖形分割、機器學習、生物信息學等等。在生物學上,聚類用于推導植物動物和微生物的分類,以及對基因進行分類,目前基因數據聚類已經成為聚類分析中的一個前沿分支學科,主要包括基因表達數據聚類和基因序列數據聚類。如果有同學是做一些育種等方向的研究,或者具有SAS和SPSS的使用經驗,應該對聚類還是比較熟悉的,在一些對生物環境,生物個體等的統計分析中,聚類也是常用的方法。

聚類分析事先并不知道樣本的類別,通過某種算法把一組未知類別的樣本劃分為一些類別,這種在機器學習中稱為無監督學習。

上圖就是一個簡單的二維數據聚集過程,我們能清楚的看到數據怎么聚類的。在二維和三維的數據集中,我們能比較容易的通過目測就可以進行簡單的分類。在多變量大數據的聚類分析中,基本原理是相同的,根據樣本自身的屬性,用數學方法按照某種相似性或差異性指標,定量地確定樣本之間的親疏關系,并按這種親疏關系程度對樣本進行聚類。通俗的講,聚類分析就是根據事物彼此不同的屬性進行辨認,將具有相似屬性的事物聚為一類,使得同一類的事物具有高度的相似性。反映在數據上,就是對數據的數學特征對數據進行分類,這些特征包括不限于:平均值、相關系數、協方差矩陣的本征值……

在基因表達聚類方面,從數學的角度,聚類得到的基因分組,一般是組內各成員在數學特征上彼此相似,但與其它組中的成員不同。從生物學的角度,聚類分析方法所隱含的生物學意義或基本假設是,組內基因的表達譜相似,它們對某種處理具有相似的反應,在某個層面上是同一個類別。或者對一些未知功能的基因,具有相似表達譜的基因可能具有相同的功能,共享相似的轉錄模式。雖然這個不一定是正確的,有許多意外的情況存在,大量功能相關的基因在相關的一組條件下會有非常相似的表達譜,特別是被共同的轉錄因子共調控的基因,或者產物構成同一個蛋白復合體,或者參與相同的調控路徑。因此,在具體的應用中,可以根據對相似表達譜的基因進行聚類,從而指派未知基因的功能。同理,在微生物中,可以根據得到的OUT對樣本進行聚類分析,從而對樣本進行類別區分;在疾病的分型中也可以使用類似的方法。


聚類分析過程:

1.數據預處理——標準化。

在前面介紹熱圖的時候,簡單的講過z-score標準化,這種是方差標準化。除此之外,還有多種標準化方法,有興趣的同學請自行查閱,不然標準化方法也得講一章。大家還記得為什么要做標準化么?因為變量的量綱不同或者數量級差別很大,為了能放在一起進行比較,所以要做一些變換。

2.構造關系矩陣——描述樣本間親疏關系。

描述樣本或者變量間的親疏程度的指標一般有兩種:相似系數和距離。相似系數這個比較容易明白,距離這個是什么意思呢?把每一個樣品或者變量看作是n維空間的一個點,在這個空間里計算點之間的距離。距離較近的點就是一類的。大家想一下在PCA里面提到的,是不是比較容易理解了,簡化為二維平面的話,就是前圖描述的那樣子,湊在一起的點是一起的。不過就是n維空間的距離計算方式和低維空間的不一樣而已。一般來說,我們用歐式距離來衡量。n維歐氏空間里的點X可以表示為 (x[1],x[2],…,x[n]) ,其中 x[i](i = 1,2,…,n) 是X在每個維度的坐標。兩個點 A = (a[1],a[2],…,a[n]) 和B = (b[1],b[2],…,b[n]) 之間的距離L(A,B) 這么算:L(A,B) =(∑( a[i] - b[i] )^2)1/2。如果是基因表達譜,不同的樣本,我們可以把一個基因的表達量作為一個維度,計算樣本間在這個多維空間的距離,然后對其進行分類。

3.聚類——根據不同方法進行分類。

聚類分析方法有很多,分幾個大流派,每個流派里又有多種算法。這里不進行展開介紹。在上周的熱圖詳解文章中,熱圖旁邊的聚類是層級聚類方法得到的。還有一種也很常用的聚類方法是k-means聚類,這也是聚類分析中兩種主要的計算方法。簡單的介紹下這兩種算法。

層級聚類也稱為層次聚類、系統聚類、譜系聚類。在基因表達譜聚類分析中是常用方法,得到的結果用樹狀圖的形式表示,非常容易理解和實現,能夠直觀的觀察基因之間的相互關系,尤其是不同類之間的關系。其基本思想是讓每個樣品自成一類,計算出相似性測度。此時類間距離與樣品間距離是等價的,把測度最小的兩個類合并,也就是最近的那些樣本合為一類。然后按照某種聚類方法計算類間的距離,再按最小距離準則合并類。這樣每次減少一類,持續下去直到所有樣品都歸為一類為止。所以,現在你知道為什么是一個樹狀圖了。下圖是R自帶的鳶尾花數據聚類結果。 

K-Means,即K-均值聚類也稱為快速聚類法,不考慮類的分層結構問題,該算法使待聚類的所有向量到聚類中心的距離的平方和最小。基本算法是:任意選取K個基因表達譜向量作為初始聚類中心,也即是選擇隨機的凝聚點。然后對所有的基因表達譜向量進行迭代計算,距離凝聚點近的歸為一簇,通過反復計算,檢查歸類是不是合理,重新分配凝聚點。迭代結束后,得到最終結果。聚類中心的個數 K 、初始聚類中心的選擇、基因排列的順序 以及基因表達譜數據的分布影響聚類的結果,當基因表達譜類別之間分離較遠時,該算法可以取得令人滿意的聚類分析結果。

到這里,聚類分析的基礎講完了。不知道大家是不是還覺得比較抽象呢。生信分析完畢后肯定也不是給大家一堆純數據,現在講究的是數據可視化。前面講過的熱圖就是聚類分析的一種可視化形式。還有一種形式是點線圖。如果大家用過STEM軟件就會對這種圖比較熟悉。左下圖是聚類結果,右下圖是某個類中的樣本的基因表達情況。一條曲線就表示了一個基因在不同條件下的表達水平,對于時間相關的數據,可以在一定程度上反應基因的動力學行為。

可視化方法對于我們對數據的理解非常重要,尤其是分析和理解生物學意義具有不可替代的作用。除了上述兩種主要的表示方法外,還有一些方法可以直觀地顯示基因之間的相互關系,昨天的主成分分析其實也是一種展示形式。

要對聚類結果進行評價,標準肯定是能否發現生物學知識,即從數據出發,能夠找到新的生物學知識或得到明確的對某些生物學問題的答案,例如,能預測未知功能的基因,明確樣本的腫瘤分型,獲得基因之間的調控關系等等。能夠在生物醫學中得到應用,該方法就是有效的好方法。但是,對方法進行生物學評價是非常困難的。聚類方法作為一種探索性的知識發現方法,它的結果是預測性的,而生物學知識還是非常不完備的,很難從理論上來證明,因此必須通過生物學實驗的驗證才能證明其預測的正確性。目前來說,這個的難度還是不小的。


亚洲人成视频在线播放_日韩免费人成视频_av成人影院在线观看