次世代シークエンスのデータ解析

どうやらRPKM（Reads Per Kilobase exon Model per million mapped reads)
が重要みたいです。まだまだ調べないといけません...
統計アルゴリズムの1種？？

参考URL
http://www.filgen.jp/Product/BioScience21-software/index11-g.htm

下記にmRNA seqのDigital Gene Expression解析の手順を示します。

1.
エクソン上にマッピングされたリードのノーマライゼーションを
行います。CLC Genomics Workbenchは、すべてのリードを染色体上の
すべての既知遺伝子にマッピングします。

遺伝子上に特異的にマッピングされたリードは、発現比計算における
分子としてカウントされ、非特異的マッチングしたリードは
分母としてカウントされます。

2.
RPKM解析では、エクソン上にマッピングされたリードに対してのみ行います。
RPMK値は、総エクソンの長さと実験における、マッチングしたリード総数で
ノーマライズを行います。これによって、異なる実験データとの比較が
可能となります。

3.
CLC Genomics WorkbenchのGene Expression機能を使って、
mRNA seq実験とマイクロアレイデータを比較することができます。
また、この機能は、CLC Main Workbenchにも搭載されています。
*1 Mortazavi A., et.al, "Mapping and quantifying mammalian
transcriptomes by RNA-Seq", Nature Methods, 2008 jul;5(7):585-7.