Mapping Human Genetic Diversity in Asia
The Hugo Pan-Asian SNP Consortium
Science 326:1541(2009)
73の地域から1928人について、54794のSNPsを解析した、まさしく大規模研究です。
これまでも常染色体解析による報告はいくつかあり、初期のものはGenetic Structure of Human Populations(Science 298:2381(2002))があり、1056人に対する377カ所のmicrosatellite解析により、人々が、アフリカ、西欧と中東と南アジア、東アジア、オセアニア、アメリカ、で分かれることを示しています。また近年では、Worldwide Human Relationships Inferred from Genome-Wide Patterns of Variation(Science 319:1100(2008))が、938人に対する650000のSNPs解析により、同様の結論を示し、またアフリカから遠ざかるほどに遺伝子の多様性が減少することを示しています。
この後者の報告では系統樹も作られていますが、南アジア、中央アジアの後はポリネシア、アメリカと分かれ、アメリカ組と分岐した先で東アジアが北(ヤクート)から南(カンボジア)へ順に分かれていく、という、近年優勢な東アジアの南起源説からすれば違和感のある図になっています。これは報告が全世界を対象としたもので相対的にアジアの検討が薄く、特にタイやフィリピンの先住民族が対象となっていないことが原因のひとつと思われます。
Mapping Human Genetic Diversity in Asiaでは、このような先住民も含むインドから日本までの73の地域が対象となっています。
この膨大なデータを、Bayesian clustering procedureであるSTRUCTURE algorithm、およびmaximum-likelihood-based clustering analysisであるfrappeで解析し、両者とも、似たような結果を得ています。Software and methods for estimating genetic ancestry in human populations (Hum Genom 7:1(2013))を参考にすると、STRUCTUREは現在の遺伝子データから過去のもとになった集団を推測するもので、flappeは過去の遺伝子から現在の遺伝子がどのように変化してきたかを推測するものであり、つまり全く別のアプローチで解析をして、似たような結果が得られた、ということのようです。
どちらの解析でも、全体をいくつのグループに分けるのか指定することができます。supplementではK=2からK=15まで、つまり全体を2グループに分けたものから15グループに分けたものまで図示されています。
それを一つの図に並べてみました。
K=2および3では、東南アジアと東アジアは同じグループになり、インド・ヨーロッパ族およびアフリカと分かれます。
K=4ではネグリトを中心に東南アジアがグループとして分かれ、ここからネグリトが東南アジア全体の祖先であることが推測されます。
また、maximum-likelihood法(過去の共通祖先からどのように遺伝子が変化してきたかを推測する手法)により系統樹を作り、東南アジアと東アジアの祖先が共通であることを示しています。この系統樹をもとにして系統の流れを地図上にプロットしてみました。
ここから、インドから東南アジア北部を経由して多方面へ植民していく様子が読みとれます。北インドから中央アジアへ向かうルートや、またインドネシア方面に複数回の進出があったことが伺われます。この図だと旅の終わりが琉球であるように見えますが、supplementには他集団も含めた系統樹が示されており、それによると中国から韓国・日本を分岐した先は、モンゴルやヤクートに続き、さらにアメリカ大陸に続いていきます。
さらにprincipal components analyses(PCA)により解析しており、以上の結果から、集団は地理的要因だけでなく、言語の違いによってもきれいに分かれることを示しています。具体的には、言語としてAltaic Sino-Tibetan/Tai-Kadai Hmong-Mien Austro-Asiatic Austronesianの5つが分離され、フィリピンネグリト・マレーネグリト・東インドネシア/メラネシアの3民族グループが分離され、少数民族のBidayuhとMlabriが分離されています。言語グループから外れた民族が8つありましたが、ほとんどは近隣の言語グループからの影響が想定され、またウイグルに関してはAltaicという言語グループの妥当性が問題となる、とされています(ウイグルと韓国・日本は同一のAltaicという言語に分類されますが、韓国・日本語は他と孤立した別系統の言語とする意見もかなりあります)。
また、緯度とハプロタイプの多様性には相関があり、北にいくほど多様性が減少することが示され、これは東アジアが南から北に植民されたことを支持します。
一方で、中央アジア、東南アジア、東アジアそれぞれについてハプロタイプをどのくらい共有しているかを調べ、東アジアはそれぞれのグループと90%程度のハプロタイプを共有しているが、東南アジアとだけ共有しているのが50%、中央アジアとだけ共有しているのが5%、としています。これは東アジアのハプログループが中央アジアより東南アジアからより強く影響を受けていることを示唆します。
これらより、東アジアは主として東南アジアから植民された、と結論しています。以前から、東アジアは東南アジアおよび中央アジア、双方から植民されたという仮説がありますが、中央アジアからの植民についてはこの研究内では明らかにすることができなかった、としています。
近年のmtDNAやYchrによる研究と同様、この報告でも東アジアの南からの植民が支持されています。常染色体による解析は特に遺伝子浮動の影響を受けやすい初期の植民についてより正確に推測できる可能性があり、その点でこの報告は従来の研究を強く補強するものになっているように思います。
また常染色体による報告は最近相次いでおり、日本・東アジアのものも複数あります。これから少しそのあたりもみてみたいと思います。