主成分分析による日本人集団構造の予測システム

本ウェブページは理化学研究所・ゲノム医科学研究センターにおいてゲノムワイド関連解析に用いられた19,170人におよぶ日本人の大規模SNP(一塩基多型)データを利用した日本人集団構造の予測システムを公開するページです(Currently English page not available. For questions and comments, please write directly to Natsuhiko Kumasaka (kumasaka AT src.riken.jp)).

本システムの特徴はこれから集団構造を予測しようとするサンプルの規模に依存しません.たとえサンプルが一人からでも,日本人の分集団のどのクラスターに属するかをあらかじめ推定された主成分に基づいて確率的に予測します.また本システムはIllumina社のHumanHap 550K 商用プラットフォームに搭載されているSNP座位に基づいて構築されていますが,他社のプラットフォーム(Affymetrixなど)でタイピングされたSNPでも利用することが可能です.ただし利用に際しては,Illumina社が搭載しているSNP座位を一つでも多く(最低一万SNP程度)入力することが予測精度を向上させる意味で必要不可欠です.

データ形式は,列をSNP,行を個体(サンプル)とするテキストファイルです. 1列目にrs番号,タブ区切りで,2列目に数値化した遺伝型をサンプルの順番に区切り文字なしで入力してください. このとき入力行は一列目のrs番号で辞書式にソートされている必要があります. またIllumina 550K に搭載されていないSNPは自動的にスキップされますので,入力ファイルを Illumina社のSNPリストに合わせる必要はありません. 遺伝型(Genotype)はアレルCまたはGの個数をカウントしてください.欠損は9です. 詳しくは以下の例,またはテストデータを参照してください. また本システムはSNP以外の遺伝的マーカー(CNVやMicrosatelliteなど)には利用できませんのであらかじめご了承下さい.

遺伝型の数値化例:
AC, AA, CC, TT, AG, GG, TC, NN -> 1, 0, 2, 0, 1, 2, 1, 9

ファイル形式例:
rs10000 010201002001020122201...
rs100001 010202202010102910102...
rs100012 019192019202222921192...
...

本ソフトウェアは Java Runtime Environment (JRE) 5.0 以上で動作することを確認していますが, 念のため以下のテストデータを併せてダウンロードし動作確認を行うことをお勧めします. Windows環境をご利用の方はWindows実行形式(EXE形式)をダウンロードしてご利用ください. その他のOSをご利用の方はJAR形式をダウンロードしてください. Windows実行形式をご利用の場合,アイコンに直接ファイルをドラッグ&ドロップすることが可能です.JAR形式をご利用の方は以下のコマンド入力例を参考にしてください. また本ソフトウェアはあらかじめ推定された主成分を利用しているため高速に計算が行われますが, 数千人規模のゲノムワイドSNPデータに適用した場合には,動作環境によっては数分から数十分の計算時間を要すことがあります.

コマンド入力例:
% java -jar pca.jar test.txt

本ソフトウェアは出力として,予測した主成分をあらかじめ推定された主成分へ射影した図(.png),予測された主成分(.pc),各サンプルの8つの分集団(北海道,東北,関東,東海,近畿,九州,沖縄,HapMap CHB)に属する事後確率(.posterior),各サンプルが最大事後確率をとるクラスター名(.clus)の4つを出力します.出力された図は8つの分集団の事後確率最大のクラスターで色分けされています.それぞれ用途に応じてご利用ください.なお,この予測システムはある確率モデルに基づいて各サンプルが属している最も尤もらしい分集団を予測しているのであって(天気予報のようなもの),この結果が普遍の真理を与えるわけではないことに注意が必要です.

ご質問・ご意見などございましたら開発者(熊坂夏彦:kumasaka AT src.riken.jp)まで. ソフトウェアトラブルの際は(動作しないなど),pca.exeが出力するpca.logも 併せて送っていただきますようよろしくお願いします.JAR形式をご利用の方はコマンドラインに標準出力されたエラーを併せてお送りください.

Download:
EXE (Windows) | JAR (Multi-platform) | Test Data | 論文(準備中)
免責事項

本システムの開発者および論文著者は公開されているソフトウェアの使用によって生じたいかなる損害にも責任を負うものではありません.

本ウェブサイトにおけるすべての著作物のコピーはフリーです.ただしそこでのアイデアにはリスペクトが大切です.

リンクはフリーです.