我们是谁?我们从何而来?通过中国南北方人群的古基因组研究,逐步揭开东亚尤其是中国史前人群南北格局、迁徙扩散及遗传混合历史的面纱!

  2020年5月15日,美国《科学》(Science)期刊以Research Article的形式正式在线发表付巧妹团队独立完成多家单位参加的研究论文《Ancient DNA indicates human population shifts and admixture in northern and southern China》,从遗传学角度揭开了有关中国南北方史前人群格局及迁移与混合这一重大学术问题上的若干谜团,是一项有关中国、东亚古人群遗传特点、基因交流与迁徙融合的重大科学发现和研究成果。相关研究成果呈现了中国史前人群遗传与演变历史直接呈现给学术界和社会大众,填补了东方尤其是中国地区史前人类遗传、演化、适应方面的重要信息。

  该文系首次正式发表大规模中国南北方史前人类基因组分析结果,为探源华夏族群及其文化和修正东亚南方人群演化模式做出了重大贡献。在中华民族探源方面,发现中国、东亚主体人群连续演化是主旋律,中国南北方古人群早在9,500年前已经分化,至少在8,300年前南北人群融合与文化交流的进程即已开始,4,800年前出现强化趋势,至今仍在延续。在修正东亚南方人群演化模式方面,明确中国福建及周边距今8,400年的古南方人群不属于 “第一层”祖先人群,即来自南亚及太平洋岛屿的古人群。事实上,他们是南岛语系人群(现今主要生活在台湾岛及太平洋岛屿等地)的祖先来源;整个东亚沿海族群之间都存在遗传联系,这为修正此前流行的该地区古人群来源的“两层假说”提供了遗传学基础,并为农业-语言传播模式及相关研究提供重要证据。该成果通过改进、创新古DNA技术首获中国南方大陆人群核基因组,使大规模研究东亚人群遗传信息成为可能,相关技术有着非常重要的应用前景。

  这一学术成果是中国科学院推进率先行动计划,依托生物演化与环境卓越创新中心,面向学科前沿,加强联合交流,围绕东亚人类古基因组学研究所取得的重大突破,也是与国家文物局共建旧石器时代人类生存与演化重点科研基地、跨学科交叉与多机构合作取得的重大发现,其独立自主研究对于有效保护和利用我国人类遗传资源与信息,对于中华民族和华夏文明探源工程,具有重大的学术价值和社会意义。

寻根东亚南北方人群 探源华夏族群与文化——创新古DNA技术,揭秘中国史前人群迁徙动态与族群源流

图1:研究样本的地理、年代、遗传信息。(A)地图中标注了本研究样本的地理位置,以秦岭淮河为界划分了东亚南北方,灰色背景反映了海拔高度。(B)研究样本的测年信息,样本来自三个时期:新石器时代早期(9,500-7,500 BP)新石器时代晚期(5,000-4,000 BP)以及历史时期(300 BP)。东亚北方的样本均来自新石器时代早期,而东亚南方的样本涵盖了三个时期。(C)主成分分析图(PCA),现代东亚人群以灰点表示,他们聚集构成三个方向:“东亚北方人群”、“东亚南方人群”、“青藏高原人群”,不同人群相关的语言信息已注明。图中还包括不同时期、不同区域已发表的亚洲古代人群: 1:“含古老亚洲成分人群”; 2:来自东南亚和西南太平洋的与南岛语系人群祖先相关的岛民;3:新石器时代、青铜时代和历史时期的东南亚人群; 4:新石器时代、青铜时代和历史时期的青藏高原人群; 5:古西伯利亚人(Kolyma)和新石器时代的西伯利亚人群。(D)古代东亚人群成对计算的outgroup-f3分析,黄色表示人群之间遗传相似度更高。 

寻根东亚南北方人群 探源华夏族群与文化——创新古DNA技术,揭秘中国史前人群迁徙动态与族群源流

图2:古代亚洲人群之间的系统发育图。(A)Treemix分析得到三次迁徙事件的最大似然性系统发育树。(B)古代亚洲人群之间的系统发育图,实线表示分支,虚线表示混合事件并显示了混合比例。(C)(D)现今东亚人群与古代亚洲人群的遗传结构对比图,在图(B)的基础上计算了更多人群的遗传成分组成,以不同颜色表示不同遗传成分,以颜色占比表示不同成分的混合比例。 

寻根东亚南北方人群 探源华夏族群与文化——创新古DNA技术,揭秘中国史前人群迁徙动态与族群源流

图3:表明现今东亚人群混合有新石器时代早期的古南方人群成分和古北方人群成分情况。(A-C)新石器时代早期、新石器时代晚期及现今东亚和东南亚人群与东亚南北方古人群之间的遗传关系图,绿色表示与东亚古北方人群关系更近,蓝色表示与东亚古南方人群关系更近。(D-F)亚洲的主要祖源人群成分在欧亚不同时期人群中的比例分布图,绿色代表东亚古北方人群成分,蓝色代表东亚古南方人群成分,浅绿色表示古西伯利亚人成分,橙色表示东南亚和平文化人群成分,浅蓝色表示日本绳纹文化人群成分。 

寻根东亚南北方人群 探源华夏族群与文化——创新古DNA技术,揭秘中国史前人群迁徙动态与族群源流

图4:(A)不同人群的遗传分化指数分布图,指数越高表示相关人群的分化程度越高,遗传差异越大,该图表明新石器时代南北方人群的的遗传差异远高于现今东亚南北方人群。(B)现代汉族人群祖源成分与地理分布图。现今中国南北方的汉族人群,不管是在南方还是北方,均显示混合有东亚古南方人群成分、古北方人群成分、古西伯利亚人成分。其中,现代汉族人群里携有古北方人群成分比例最高的群体显示位于山东,这里也正是本研究古北方人群的代表个体样本的遗址所在地,由此反映出山东地区人群自新石器时代以来的遗传连续性。(C)现今东亚人群与古南方人群、北方达斡尔族人群的遗传关系图,绿色表示与古南方人群的关系更近,蓝色表示与达斡尔族人群更近。(D)古南方人群与现今傣族人群、台湾岛阿美族人群的遗传关系的f4分析图,Z>3 表示与阿美族人群关系更近。 

  一、首次正式发表中国南北方人群规模性、系统性的史前基因组研究

  近年来,与东亚毗邻的东南亚、西伯利亚等地的古代人类遗传演化研究已取得很多成果。但迄今为止,东亚,尤其是中国南北方分别作为稻作和粟作农业的起源中心,史前人类基因组的相关信息所知甚少。此前,中国科学院古脊椎动物与古人类研究所付巧妹团队关于四万年前田园洞人的研究揭示出东亚史前人群的多样性及遗传历史的复杂性,为东亚人群古基因组研究打开局面,同时也激发出对不同时期、不同区域的东亚古代人类样本进行系列采样研究的迫切需求。

  为解决这一问题,付巧妹团队与福建博物院考古研究所、平潭国际南岛语族研究院、福建龙岩及漳平市博物馆、山东考古与文物研究院、吉林大学、山东大学、山东省博物馆、北京大学、内蒙古文物与考古研究所、西北大学等多家单位合作,共同开发的具有关键作用的古DNA技术,成功捕获测序中国北方山东、内蒙古及南方福建、毗邻亮岛和锁港等地11个遗址25个9,500-4,200年前的个体和1个300年前个体的基因组(图1A和B)。这为大时空框架下研究东亚古人群,尤其是现代人的迁徙与演化历史提供了重要的遗传学证据,这也是首次针对中国南北方人群开展的时间跨度最大的系统性古基因组研究。

  二、古DNA寻根东亚南北方人群 探源华夏族群与文化

  (1)洞察东亚史前人群格局,揭示中国南北方古人群的遗传差异、融合进程与主体连续性。

  研究所涉及新石器时代早期人群样本,包括来自北方山东、内蒙古地区5个遗址(扁扁洞、小荆山、小高遗址、博山遗址、裕民遗址)距今9,500-7,700年的7个个体,及南方福建、台湾海峡2个遗址(奇和洞、亮岛)距今8,400-7,600年的3个个体。通过研究这些人群的基因组发现,在沿着黄河流域直到西伯利亚东部草原的人群,至少从9,500年前起都携有一种以新石器时代山东个体(图3)为代表的古北方人群成分而中国大陆沿海及台湾海峡岛屿人群至少从8400年前起就携有一种以新石器时代福建及其毗邻岛屿个体为代表的古南方人群成分(图1C和D),且这两种成分截然不同(图3A)。然而随着时间的推移,东亚大陆南北方人群之间的这种差异性和分化程度逐渐缩小(图4A),这种变化暗示着自新石器时代以来南北方之间频繁的人群迁移与混合。此外,在8,300-7,700年山东人群中发现古南方人群联系(图2B)及在约8,300亮岛1号人发现有少量古北方人群的影响(图2D),反映南北方人群已经开始互动。

  研究数据显示,大概在新石器时代晚期,人群的迁移和融合继续对东亚人群产生影响。南方以距今4,800-4,200年的锁港、溪头村、昙石山等遗址13个个体为代表的新石器时代晚期人群表现出与东亚北方沿海人群具有基因上的联系,并且这种联系是双向的,南方人群遗传成分也向北影响(图2A)。

  研究观察到,现今的东亚人群,不管是来自北方还是南方,都同时混合有古北方人群成分(以黄河沿岸的山东人群为代表)和古南方人群成分(以福建与台湾海峡岛屿人群为代表),但古北方人群成分影响更为广泛(图2C和图3C)。而与福建奇和洞人相关的古南方人群成分在中国南方大陆大量下降 (图3C和3F)。该结果表明人群的迁移,包括新石器时代南北方人群之间的互动融合,以及新石器时代以后黄河以北人群向南的大量迁移,基本构成了现今东亚南北方人群的基因组成。

  (2)阐明东亚自9,500年以来主体人群连续性,为华夏民族的探根溯源提供重要证据

  中国人群与欧洲人群,自新石器时代以来的演化历程差异较大。在约9,000年前农业出现以来,欧洲人群不断受到近东农业人群及欧亚草原人群等外来群体的大换血。也就是说,外来人群一直在重构欧洲人群遗传信息,对现今欧洲人产生重要影响。在中国,南北方人群虽早在9,500年前已分化,但南、北方同期人群的演化基本是连续的,没有受到明显的外来人群的影响,迁徙互动主要发生在东亚区域内各人群间。

  有趣的是,研究发现中国南北方现今大部分省市的汉族人群,所携有东亚古北方人群成分和古南方人群成分的混合比例基本相似(图4B)。此外发现中国古南方人群成分在现今南岛语系人群中占主导地位(图4C),确认南岛语系人群起源于中国南方。这些研究结果都为华夏民族的形成演化研究及中华文明的探根溯源提供了重要线索和佐证,对于我国考古界、史学界正在开展的华夏文明溯源这个重大学术工程提供了重要的信息与助力。

  三、明确南岛语系人群起源 修正东亚南方人群“层次”

  (1)确认最早南岛语系人群的祖先来源,且首次明确时间可追溯至8,400年前

  研究发现,古南方人群成分虽然在现今东亚大陆人群中所占比例较小,却对其他地区的人群具有广泛的影响。现代遗传学和新石器时代中期以来的考古学材料虽已暗示了南岛语系人群与东亚南方大陆人群之间的联系,但对其起源地却一直没有定论。付巧妹团队为此提供了较为确凿的遗传学证据。他们通过研究发现,现今广泛分布于台湾海峡、东南亚和太平洋西南部岛屿的南岛语系人群,与新石器时代的中国南方沿海人群有着非常密切的遗传联系(图1C和图2A)。这表明最早的南岛语系人群起源于中国南方的福建及其毗邻地区,且首次明确将时间追溯到8,400年前。这是第一次通过古基因组数据明确中国8,000多年前的古南方人群是南岛语系人群的祖先来源。

  值得一提的是,福建8,400年前的奇和洞人相较于现今生活在东亚北方和西部人群(如达斡尔族人群)而言显示与东亚现今中部和南方人群(如汉族和傣族人群)之间存在更多的遗传联系(图4C),且与台湾岛的阿美族和泰雅族人群具有最强的遗传联系(图4C和4D),反映出现今族群之间的联系性。

  (2)新石器时代早期中国南方福建等沿海古人群不属于“第一层”人群,且对现今人群影响很大

  有头骨形态学提出有关东亚与东南亚祖先人群的“两层假说”(Two Layers Model),认为距今4,500年及以前,中国东南沿海同东南亚地区一样,普遍存在着以狩猎采集经济和屈肢葬为特点的狩猎采集人群(澳美人群Australo-Papuan),且本研究涉及的福建奇和洞人与台湾海峡亮岛人等古南方人群便属于这“第一层”人群;他们同从事农业经济的“第二层”农业人群(现代东亚人)是截然不同的。在农业-语言传播模式中,正是后者“第二层”农业人群的扩张取代了“第一层”狩猎采集人群,由而推动了东南亚及太平洋岛屿的新石器文化和南岛语系人群的形成。

  然而,付巧妹团队通过此次古DNA研究,发现此前因为头骨特征被归入“第一层”的以奇和洞人和亮岛人为代表的古南方人群,实质上并没有明显属于“第一层”人群的遗传信息,反而与现今东亚人群、南岛语系人群有着直接而延续的遗传关系。这表明在至少8,400年前,组成现今东亚人群、南岛语系人群基因结构的主要祖先群体之一已经在东南沿海出现。这一研究成果,将推动对农业-语言传播模式和南岛语系人群形成等理论的进一步探讨研究。

  (3)迁徙和流动在亚洲沿海人群史前史中起着重要作用

  该研究发现,东亚和东南亚地区所有沿海人群之间很少存在遗传隔离的情况。数据显示,大部分新石器时代晚期的东南亚人群都混合有当地古老的和平文化人群(Hòabìnhians)和中国古南方人群相关遗传成分,其中自越南4,000多年前的人群尤其显示与新石器时代晚期中国沿海的福建人群有着非常密切的关系。此外引人注目的是,这种沿海人群之间的遗传联系进一步向北延伸。

  日本群岛的绳纹文化(Jōmon)人群在很早以前便与东亚人群分离。之前研究认为其与东南亚地区的古老和平文化人群密切相关。然而付巧妹团队在结合新石器时代中国南北方人群基因组进行比较分析时,却发现一个2,700年前的绳纹文化(Jōmon)个体虽含有早于东亚人群的古老成分,但这种成分与东南亚的和平文化古老人群并无明显的直接联系,而且与新石器时代的西伯利亚和东亚南方地区的沿海人群密切相关。这些研究表明,沿海区域不但未对相关人群造成隔离,反而促进了人群之间的互动和基因交流,即沿海地带是亚洲人群交流的重要通道。这一研究结果亦为探索东北亚祖先人群的构成提供了新的研究思路和遗传学线索。

  四、潜心专研,引领古DNA技术探索与跨学科研究的实践典范

  该研究工作自2012年起筹备开展,历经八年艰辛持续的科学探索、多学科协作及一系列现代科研手段的运用和创新,最终取得重大发现和突破成果。其实早在2014年,付巧妹团队便已成功获得北方山东和南方岛屿亮岛的几个关键样本的基因组数据,对东亚南北方古人群遗传特点得出非常有价值的研究进展。但是,亮岛作为岛屿的特殊地理位置让付巧妹始终存疑:亮岛个体能否代表典型南方人群?他们与南方大陆人群会否存在巨大差异?比如说翁奇人(Onge)是居住在印度安达曼群岛的现代人群,却由于地理的隔离性而属于较为原始的支系,与印度半岛大陆人群差异很大。基于系统的研究设想与严谨的科研追求,付巧妹带领团队开始了长达六年的南方大陆样品“攻坚战”。

  中国南方大陆炎热潮湿的气候非常不利于化石的保存,因而南方的样本材料不仅稀少,而且微生物DNA污染严重,其中的人类DNA被高度甚至完全降解。原本要从年代久远的人类骨骼遗骸中提取到内源DNA已是不易,而南方样本更是让相关实验和研究难上加难。近四年,付巧妹团队全力专注于南方样本的采集和古DNA实验,其间与我国南方多家博物馆及考古机构联络深度合作,也有因古DNA样品难获得而吃“闭门羹”,深入南方30多个遗址采集257例古代人类样本,常常遇到样本完全不含古DNA或是保存条件太差而无法提取的情况。尽管如此,他们并没有放弃,而是不断摸索更有效获取古DNA,尤其是核基因组的实验方法。

  终于经过多方努力和不懈探索,实验室通过延展应用单链文库制备技术,共同开发古DNA捕获技术及短片段提取技术等,成功获取南方福建及台湾海峡岛屿5个遗址18个距今8,400-4,200年的人类基因组数据,填补东亚南方大陆核基因组空白区域。其中距今8,400年的福建奇和洞个体基因组尤其具有极高研究价值,不仅揭示出南方大陆人群与北方大陆人群的遗传联系,而且证实了南岛语系人群的中国南方起源。审稿专家对此高度评价道,“研究提供了非常珍贵的基因组数据,其代表的时间和区域是前所未有而又必不可少的。”

  值得一提的是,付巧妹实验室所延展或创新的这些古DNA关键技术,有着非常重要的应用前景。如共同开发古DNA捕获技术,实现从大量土壤微生物DNA里“钓取”极其微量的内源DNA(曾成功捕获仅占0.03%的人类核DNA);参与的古DNA短片段提取技术,将非冰冻层人类古DNA 破译的时间推进到40万年前。这些技术极大扩展了可用于古DNA研究的样本范围,将有力推动人类学、进化遗传学与群体遗传学等相关学科的发展。

  中国南北方人群的古基因组研究,揭开人类演化史的冰山一角,同时也提出更多、更深层的追问,旧石器时代的中国南北方人群有着怎样的互动与交流?中国南北方人群的迁移与农业技术的传播与扩散有何关联?……这些追问让我们期待着新一轮中国史前人群研究带来新的解答。

  致谢:该项目在研究过程中得到福建博物院文物考古研究所、平潭国际南岛语族研究院、福建龙岩及漳平市博物馆、山东考古与文物研究院、吉林大学、山东大学、山东省博物馆、北京大学、内蒙古文物与考古研究所、西北大学等多家单位的大力支持与帮助;且得到中国科学院、国家自然科学基金委、腾讯基金会与美国霍华德·休斯医学研究院的资助。