PCA分析のお話

下記はPCAについて教えていただいたメールより転載致します。


主成分分析(Principal Component Analysis:PCA)について

PCA は、多次元空間の解析を少ない次元に落とし込むことで、
Complexity を減少させる手法です。
また、クラスタリングと同様、雑多なパターンの中から
特徴的なパターンを抽出するのにも有用なツールです。


PCAが最も良く使われるケースは、
「どのサンプルとどのサンプルが似ているのか?」
という目的を直感的に示すケースだと思いますので、
今回はその内容を例として示させていただきます。


GeneSpringGXでは、
Analysis>Principal Component Analysisから
PCA on [Conditions]を設定することで、
Condition(およびSample)同士の類似度を考察することができます。
(※類似度=正確な言葉ではないかもしれませんが、ご容赦下さい。)



例えば、以下の結果の場合、
第1主成分(Component 1)の軸(X軸)で、
Treated(3サンプル)とUntreated(3サンプル)のグループが
分類できていることがわかります。
# 赤枠同士での比較となります。


第2主成分(Component 2)の軸(Y軸)で、
Treated内の1サンプルと2サンプルのグループ、Untreated内の
2サンプルと1サンプルのグループで分類されていることがわかります。
# それぞれの赤枠内にあります、青枠および緑枠での比較となります。



さらに、
Component 1の寄与率が50.74%、Component 2の寄与率が23.53%となるので、
Component 1とComponent 2の累積寄与率が合計74.27%となります。


累積寄与率の合計が60%〜70%に達したところで、
主成分分析の目的はほとんど達せられると言われていますので、
この例では、Component 1とComponent 2にて、ほぼ説明がつくデータと考えられます。


また、GeneSpringGXでは、
各Componentに対して、各EntityのPCA Loading FactorをExportできます。



これらPCA Loading Factorは、各Componentに対する個々のEntity の
インパクトを表します。
そして、絶対値が大きな値(+値にしろ-値にしろ、0を遠ざかれば
遠ざかる値)ほど、
各Componentを説明することを代表する典型的なEntityとなります。


つまり、各Componentで絶対値が大きなEntityを抽出すれば、
各Componentを代表した特徴的な動きがある遺伝子を
捉えることができます。


さらに、PCA Loading Factorをプロットしたスキャッタプロット(Loading Plot)
を描いてみます。
View>Plot List Associated Valuesから描くことができます。


横軸:Component 1のLoading Factor
縦軸:Component 2のLoading Factor


また、絶対値が大きな値を持つEntity(緑で示されたEntity)が、
各Componentを代表した特徴的な動きがある遺伝子となります。