Credit: CC0公共域 利用基因组学的力量来寻找重大疾病的风险因素或寻找亲属,依赖于分析大量基因组的昂贵而耗时的能力
由约翰·霍普金斯大学计算机科学家共同领导的一个团队创造了一个基于云的平台,使基因组研究人员能够轻松访问世界上最大的基因组数据库之一,从而为竞争铺平了道路
这个新平台被称为“砧座”(Genomic Data Science Analysis,Visualization,and information Lab-space),它让任何有互联网连接的研究人员都能访问数千种分析工具、患者记录和30多万个基因组
这项工作是国家人类基因组研究所(NHGRI)的一个项目,今天发表在《细胞基因组学》上
约翰·霍普金斯大学彭博计算机科学和生物学杰出教授、项目联合负责人迈克尔·沙茨说:“AnVIL正在颠覆基因组学数据共享的模式,通过以新的方式连接研究人员和数据集,为科学提供了前所未有的新机会,并承诺实现令人兴奋的新发现。”
通常,基因组分析始于研究人员将大量数据从中央仓库下载到他们自己的数据中心,这一过程不仅耗时、低效且昂贵,还使得与其他机构的研究人员合作变得困难
“对于各种规模的机构,尤其是没有资源建设自己的数据中心的小型机构来说,AnVIL将具有变革性
我们希望铁砧能创造公平的竞争环境,让每个人都有平等的机会去发现。”
癌症或心血管疾病等疾病的遗传风险因素通常非常微妙,需要研究人员分析数千名患者的基因组来发现新的关联
沙茨说,单个人类基因组的原始数据约为40GB,因此下载数千个基因组可能需要几天到几周的时间:单个基因组需要大约10张DVD的数据,因此传输数千张意味着移动“价值数万张DVD的数据”
此外,许多研究需要整合多个机构收集的数据,这意味着每个机构必须下载自己的副本,同时确保患者数据的安全性
随着研究人员着手进行越来越大的研究,要求同时分析数十万到数百万个基因组,这一挑战预计在未来会变得更大
“远程连接到AnVIL消除了对这些大规模下载的需求,并节省了开销,”Schatz说
“我们让研究人员可以毫不费力地将数据转移到云中,而不是费力地将数据转移给研究人员
它还使共享数据集变得更加容易,这样数据就可以以新的方式连接起来以找到新的关联,并且它简化了许多计算问题,例如为患者数据集提供强大的加密和隐私
" AnVIL还为研究人员提供了几个主要的分析工具,包括部分在约翰·霍普金斯大学开发的Galaxy,以及其他流行的工具,如R/Bioconductor、Jupyter笔记本、WDLs、Gen3和Dockstore,以支持交互式分析和大规模批处理计算
总的来说,这些工具允许研究人员处理甚至最大的研究,而不必构建他们自己的计算环境
来自世界各地的研究人员目前使用该平台研究多种遗传疾病,包括自闭症谱系障碍、心血管疾病和癫痫
沙茨的团队是端粒-端粒联盟的一部分,他们用新的参考基因组重新分析了数千个人类基因组,发现了100多万个新的变异体
AnVIL团队已经从几个最大的NHGRI项目中收集了数千兆字节的数据,包括来自基因型-组织表达(GTEx)、孟德尔遗传学中心(CMG)和常见疾病基因组学中心(CCDG)项目的数十万个基因组,并计划在不久的将来主持更多的项目
AnVIL团队包括来自约翰·霍普金斯大学、麻省理工学院和哈佛大学布罗德研究所、哈佛大学、范德比尔特大学、芝加哥大学、俄勒冈健康与科学大学、耶鲁大学医学院、加州大学圣克鲁斯分校、罗斯韦尔公园综合癌症研究所、宾夕法尼亚州立大学、纽约城市大学、卡内基研究所和圣路易斯华盛顿大学的研究人员
路易斯(号外乐团成员)
来源:由phyica.com整理转载自PH,转载请保留出处和链接!