2. 东亚人群的比较
3.汉人群的比较
4. 各省和地区人群的比较
2.WBBC(https://wbbc.westlake.edu.cn/)
中国的研究团队在杂志Nature communications上发表了一篇题为“Genomic analyses of 10,376 individuals in the Westlake BioBank for Chinese (WBBC) pilot project”的文章。研究团队启动了中国西湖生物银行(WBBC)项目,以在大规模队列中描述基因组变异和群体结构,收集约10000个具有深层表型的样本。描述了中国34个行政区中的29个行政区10376个样本的WBBC试点项目的基因组发现。该项目使用NovaSeq 6000平台上对4535人进行了WGS测序分析。此外,6025名个体通过高密度Infinium Asian Screening Array(ASA)进行了基因分型,其中184名个体也进行了全基因组测序。研究团队提供了一个基于中国人群的参考panel,可以显著改善中国人口的基因型填充性能,尤其是对于低频和罕见变异。通过分析WGS数据,研究团队发现SNX29、DNAH1和WDR1基因中存在选择特征,酒精代谢基因的衍生等位基因(ADH1A和ADH1B)大约出现在7000年前,在4000年前的东亚更为常见。遗传证据支持秦岭-淮河线和南岭山脉的相应地理边界,这将汉族划分为不同亚群,同时,研究团队发现北汉族比南汉族更同质。
采样人群在中国各省的分布和变异的统计
该数据提供了下载链接
3.Huabiao (https://www.biosino.org/wepd)
2021年8月18日,Journal of Genetics and Genomics在线发表了复旦大学金力院士团队题为“The HuaBiao Project: Whole-Exome Sequencing of 5,000 Han Chinese Individuals”的研究论文。该研究对来自中国郑州(华北)、泰州(华东)、南宁(华南)三个代表性汉族群体的5000个体进行外显子测序,构建了“华表”中国外显子组数据库。
目前,“华表”数据库共包含207万个遗传变异,其中46.4%的遗传变异为该研究首次发现。全球研究人员都可以通过布设在中国生物医学大数据中心(上海)网站下的数据库子站(https://www.biosino.org/wepd)快速检索相关遗传变异的频率信息。
华表数据库中的样本,均与由复旦大学人类表型组研究院教授石乐明团队原创研发的“中华家系一号”生物标准物质(http://chinese-quartet.org/)进行了比较验证,结果显示,“华表”标准品遗传数据SNP精度(precision)达到99%。科研人员还将“华表”样本与同样本另一种技术路线——全基因组芯片数据进行比较,结果显示一致率达到99.8%。
4.NARD(https://nard.macrogen.com/)
该数据库不算纯中国人数据,国内相关介绍比较少。主要研究人群是韩国、蒙古、日本和中国东北亚人群。使用全基因组测序共1779个人,中韩国人850个,蒙古人384个。发表论文“whole-genome reference panel of 1779 Northeast Asians improves imputation accuracy of rare and low-frequency variants”。
总结:以上四个数据可以相对肿瘤来说都是正常人群,前3个是纯中国人群,第四个是东北亚人群。
小编制作的annnovar使用文件链接:https://pan.baidu.com/s/1k-zTeRt6ATiCJ9UhkXj1Wg
提取码:xt64
参考返回搜狐,查看更多
1.https://www.seqchina.cn/11976.html
2.https://new.qq.com/rain/a/20210830A0DOTB00
3.https://brgg.fudan.edu.cn/articleinfo_3949.html
4.https://new.qq.com/rain/a/20210831A06VM300
5.https://zhuanlan.zhihu.com/p/526832391
6.https://zhuanlan.zhihu.com/p/526832391