测试应用与数据集

基于真实生命科学应用场景构建的评测基准。我们精选了覆盖基因组学、转录组学、分子动力学模拟、AI 蛋白质结构预测等关键领域的代表性软件，并配套了多规模标准数据集，确保评测结果能够真实反映集群在实际科研工作中的性能表现。

15+

代表性软件

CPU/MPI 应用

GPU 应用

AI 应用

“衡量性能的基准的最佳选择是真实的应用程序。”

—— John L. Hennessy, David A. Patterson

如何选择代表性软件？

应用领域代表性

覆盖基因组学、转录组学、单细胞多组学、分子动力学模拟、AI 结构预测等主要分支，反映不同研究场景的计算需求。

使用频率与影响力

优先选择领域内应用广泛、引用量高的主流软件（如 BWA、GATK、STAR、AMBER、AlphaFold3 等），评测结果具有更高的实际参考价值。

资源需求特征差异化

涵盖计算密集型、内存密集型、I/O 密集型、网络通信密集型及 GPU 加速型，全面检验集群各核心部件性能。

开放性与可扩展性

所有软件均为开源或广泛可获取的版本，框架本身也是开放的，支持用户自定义或扩展测试应用集。

代表性生命科学计算软件

CPU 及 MPI 应用

BWA

v0.7.18

CPU

DNA 序列比对

计算密集I/O 密集

Bismark

v0.24.2

CPU

DNA 甲基化分析

计算密集内存密集

Cell Ranger

v8.0.1

CPU

单细胞转录组数据分析

计算密集内存密集I/O 密集

GATK

v4.6.0.0

CPU

基因组变异分析

计算密集内存密集I/O 密集

SPAdes

v4.0.0

CPU

基因组序列组装

计算密集内存密集

STAR

v2.7.11b

CPU

RNA 序列比对

计算密集内存密集I/O 密集

LAMMPS

2 Apr 2025

CPU

分子动力学模拟

计算密集网络通信密集 (MPI)

CP2K

2025.1

CPU

材料与生物分子第一性原理计算

计算密集网络通信密集 (MPI)

NAMD

3.0.1

CPU

大规模分子动力学模拟

计算密集网络通信密集 (MPI)

GPU 加速应用

AMBER

24.0

GPU

分子动力学模拟

计算密集GPU 加速

GROMACS

2023.3

GPU

分子动力学模拟

计算密集GPU 加速网络通信密集

SPONGE

v1.4

GPU

分子动力学模拟

计算密集GPU 加速

DSDP

v1.0

GPU

蛋白质-配体对接评分

计算密集GPU 加速

AI for Life Science

AlphaFold3

v3.0.0

蛋白质及复合物结构预测

计算密集GPU 加速内存密集I/O 密集

MindSPONGE

v1.0.0rc2

AI 力场驱动的分子动力学模拟

计算密集GPU 加速

数据来源说明

引用数来源于 Google Scholar（截至白皮书编写日期）
最佳并行模式表示在当前测试环境下获得最高并行效率的线程配置
点击软件卡片查看完整的评测详情，包括资源使用雷达图和加速比曲线

多规模标准数据集

为每款软件配套了三种不同规模（小、中、大）的测试数据集，数据量级相差一个数量级，以评估软件在不同工作负载下的性能表现和扩展能力。

规模多样性

从小型测试集到大型真实数据，覆盖多种数据量级。

真实性

均源自实际研究项目（如千人基因组、ENCODE 等公开数据库），而非人造数据。

标准化

使用公认的标准数据库，确保结果的可比性和可重复性。

查看所有测试数据集

不仅评测性能，更保障结果准确

评测框架不仅关注计算速度，还内置了计算结果正确性验证机制，解决异构环境下结果一致性的难题。不同类型的算法采用差异化的验证策略：

确定性算法

SPAdes 等

直接进行文件级严格比对，确保输出完全一致。

浮点敏感算法

BWA, GATK 等

检查核心生物学指标（比对率、变异位点一致性）是否在合理误差范围内。

随机性算法 / 混沌系统

分子动力学, AlphaFold3

验证关键统计量（能量、RMSD、TM-score）的分布和收敛性是否符合预期。

这一机制确保评测结果能够真实反映集群在“正确运行软件”前提下的性能，是后续所有性能分析的可靠基础。同时，它也为用户跨平台部署软件时提供了结果一致性的校验工具。

查看测试数据集详情了解评测框架查看评测结果