丽满营销策划

Technology Co., Ltd.

震撼!华大LUSH基因序列比对加速工具集再次突破计算极限!
来源: | 作者:it-101 | 发布时间: 07-11 00:52:10 | 0次浏览 | 分享到:
 2017年5月,19岁的拥有世界 围棋排第一人柯洁九段在和AlphaGo的围棋终极人机大战... 描述

 2017年5月 ,19岁的拥有世界 围棋排第一人柯洁九段在和AlphaGo的围棋终极人机大战以0:3完败  ,那在之前 是我们人类顶尖高手与这台机器两者之两者之间原因唯二唯二 两次较量  ,同年10月 《Nature》杂志发表了达到它那一 在之前版本的AlphaGo Zero。和一佳绩向拥有世界 展示了建立统一系统中图片频道学不断 完成复杂任务完成 的那在之前  ,而其背后所代表意义 值得一提运算决策能力  ,是计算机科学的分支密切相关领域--高能计算(High Performance Computing)  ,那在之前 际应用尤为变变成欧洲国家综合整体实力的体现 ,更给世人的日常生活过带来冲击了方式发生变化  ,目前仍然该其他技术已在航空航天、核试验模拟、天气预报、我的生命科学、高新制造(汽车、电子)等密切相关领域佳绩了广泛应用。

以我的生命科学密切相关领域举例 ,逐渐我的生命遗传密码(基因组)的逐渐破解  ,人的生老病死和一复杂件件事须要以用数字化的才有手段 具体说明呈现 ,以期不断 完成疾病的精准详细分析、诊断和治疗方式 ,让世人远离传感染疾病、防控出生缺陷、肿瘤和心脑血管疾病  ,显著大幅提高人均预期寿命  ,并大幅度显著大幅提高社会中卫生负担。

二十年来  ,一人全基因组测序的成本以“超摩尔定律”的加速下降  ,而高能计算在测序数据结果详细分析方向中的应用也已发生了翻天覆地的方式发生变化。目前仍然拥有世界 主流的基因组测序数据结果详细分析工具是Broad Institute开发的免费开源工具集GATK(Genome Analysis Toolkit)  ,该项我的生命科学密切相关领域公认的最佳目前工作 流程不断 完成那一一人的全基因组(Whole Genome Sequencing ,WGS)30X数据结果详细分析也须要1800分钟。深耕于基因组学20多年的华大基因在基因组高能计算密切相关领域再获突破进展  ,于日佳绩成功不断 完成6分钟不断 完成30X WGS全流程的详细分析任务完成  ,相较于GATK具体标准计算时长提速300倍。

很据NIH公布的最新资料 ,逐渐测序其他技术的发展方面 ,测序成本以超摩尔定律下

https://www.genome.gov/about-genomics/fact-sheets/DNA-Sequencing-Costs-Data

6分钟不断 完成30X WGS任务完成 是由华大基因自主研发的LUSH工具集不断 完成的 ,打破了该使用软件在2020年1月创造的15分钟极限加速。中都的黑科技正因采用具体标准了全的新底层架构采用具体标准搭配  ,提供全面了做基础中央后续处理器和图形后续处理器相运用实施基因数据结果详细分析的高能加速方案  ,在显著大幅提高集群计算资源消耗、显著大幅提高检出加速的尤为  ,不断 完成了全程自动化、其他信息化  ,有记录可回溯 ,也须要以更多地用于精准医学的应用场景。

LUSH工具集加速的的新底层架构逻辑

LUSH工具集提供全面和两种“CPU+GPU”的高并行软硬件须要彻底解决 方案  ,做基础经典流程中都使用软件模块BWA、SAMTOOLS和GATK  ,才有手段 GPU的通用运算其他技术  ,实施计算引擎和加速引擎的的新架构采用具体标准搭配  ,不断 完成算法优化和并行化后续处理 ,并运用华大自主研发的超高通量测序仪  ,不断 完成碱基数据结果流的超高速详细分析  ,原因唯二唯二 再获准确的详细分析原因唯二唯二 。

LUSH工具集加速流程示意图

正因那在之前 我的生命数字化进程也须要严谨的科学一种精神  ,而其应用场景主要包括体那在之前 精准医疗、健康管理等与我们人类健康都有息息密切相关的密切相关领域  ,那在之前 不同类型 于别的高能计算密切相关领域  ,基因组数据结果详细分析对精度有极高的明确要求。而那在之前 高能和准确不是要没有兼得  ,数据结果范围中、分布和浮点精度、峰值能和内存都要影响较大算法可能不 选择  ,尤为涉及到唯二最优解和似解的算法那在之前 大相径庭。LUSH工具集正因实施在经典流程算法的做基础上才有手段 了其的新采用具体标准搭配的底层架构近一步大幅减少了上面 原因唯二唯二 的读写  ,并才有手段 CPU不断 完成基因详细分析任务完成 的智能分发  ,才有手段 GPU数千计算核心不断 完成百万任务完成 的极速并行后续处理 ,尤为须要彻底解决 了经典流程计算密度较高、频繁地存储器访问等须要须要彻底解决  ,后经测试其具体标准品的准确原因唯二唯二 与经典流程一致  ,达到99.86% ,进而其也须要以在计算原因唯二唯二 的准确与极速上得以衡。

更优越的能、更低的成本和更高效的检出是那一 高能计算应用密切相关领域的研发追求两个目标。对加速组件的不断 研发图片频道对加速无止境的追求  ,正如手机中芯片行业未来的发展方面 是逐渐移动端实际需求的旺盛  ,其他技术才得以逐渐地迭代和进步。从基因组学做基础密切相关研究到临床密切相关研究及应用 ,不断 完成测序工具的自主可控的尤为也也须要不断 完成数学手段上是自主研发  ,而不那在之前 追求芯片的底层下潜开发。对后者是无止境的追求 ,而才有 前者的没有可控须要不断 完成从跟随模仿到才有 超越的那在之前  ,从核心算法的研发上助力目前我国精准医疗自主可控的发展方面 进程。