生命组学大数据是国家重要基础性、战略性资源,对支撑生命科学基础研究和应用创新、推动生物经济创新发展、维护国家安全具有重要意义。随着数据规模的不断增长,生命组学大数据的安全管理问题逐渐凸显。国家基因组科学数据中心(National Genomics Data Center,NGDC)面向我国人口健康和社会可持续发展的重大战略需求,建立了生命与健康大数据汇交存储、安全管理、开放共享与整合挖掘研究体系,形成了一系列数据安全管理的制度和措施。本文聚焦于生命组学大数据全生命周期的安全管理问题,探讨生命组学大数据安全管理框架,全面分析在数据汇交、存储、管理、共享全生命周期中涉及的安全管理内容,并总结了NGDC在生命组学大数据安全管理方面的成效。最后,本文展望了生命组学大数据安全管理的发展方向,包括完善数据分级分类制度、提升数据分级安全管理技术和加强数据异地灾备建设,以期实现生命组学大数据的安全管理与可持续发展。
基因组、转录组、表观组等多组学数据,因含有丰富的生物分子遗传信息,对生物遗传多样性的研究以及生物多样性的保护具有重要意义,但这些不同层面的组学数据不仅数据量大,而且分散在不同的数据资源网站甚至文献中,对数据的获取、共享、再整合利用等带来很大的挑战。为促进生命科学领域多组学数据的快速递交和及时共享,国家基因组科学数据中心(National Genomics Data Center,NGDC)构建了多个基础数据汇交平台。同时,为了充分整合和挖掘已有组学数据资源,构建了多个家养动植物的多组学整合资源库以及知识库。目前,NGDC形成了综合的多组学大数据资源体系,这将对生物多样性保护,包括物种鉴定、濒危物种保护、育种、生境变化监测等起到重要支撑作用。
生命与健康多组学数据是生命科学研究和生物医学技术发展的重要基础。然而,我国缺乏生物数据管理和共享平台,不但无法满足国内日益增长的生物医学及相关学科领域的研究发展需求,而且严重制约我国生物大数据整合共享与转化利用。鉴于此,中国科学院北京基因组研究所于2016年初成立生命与健康大数据中心(BIG Data Center,BIGD),围绕国家人口健康和重要战略生物资源,建立生物大数据管理平台和多组学数据资源体系。本文重点介绍BIGD的生命与健康大数据资源系统,主要包括组学原始数据归档库、基因组数据库、基因组变异数据库、基因表达数据库、甲基化数据库、生物信息工具库和生命科学维基知识库,提供生物大数据汇交、整合与共享服务,为促进我国生命科学数据管理、推动国家生物信息中心建设奠定重要基础。