本项目标的所属行业: 工业
第一包
CFD及机器学习用机架式超算集群
技术要求:
1.平台硬件参数:产品数量6台;产品外观(4U机架式)
1.1 登录管理存储计算节点(1台):
(1)外观4U机架式;
(2)处理器:搭载2颗全新未开封正式处理器,单颗核心数≥48C,线程≥96T,主频≥2.60GHz,睿频≥3.30G,最大内存通道≥ 8个;TDP ≤280W;
(3)平台:平台可支持储存容量600TB,内存插槽≥16个DDR4DIMM;最大支持2TB Registered ECC DDR4 2666MHz ,4TB Registered ECC DDR4 3200MHz;集成显示芯片;集成双千兆双口RJ45 可选万兆双口RJ45、万兆双口光纤等多种网络端口;集成10口SATA3 硬盘控制器,支持24个3.5寸SAS/SATA硬盘位;集成SATA控制器支持SATA RAID 0,1,5,10;可灵活配置SAS 卡,支持RAID0/1/10;SAS RAID卡,支持RAID 0/1/5/6/50/60, 支持Cache超级电容保护,提供RAID状态迁移、RAID配置记忆等功能;
(4)网络端口:双千兆网络端口,IPMI端口,USB 3.0/2.0,VGA,COM;
(5)散热器:配置2个高速风冷散热器;
(6)内存:系统运行内存≥256GB且支持全通道最大内存频率3200MHz,数量≥16根DDR4 3200,具有错误校验功能提升平台计算精确性和系统稳定性,确保性能最优;
(7)固态硬盘:SSD固态硬盘 ≥1TB ,确保系统运行稳定及数据调度的高效性,最高读7450MB/s、最高写入6900MB/s;
(8)数据存储:企业级数据存储空间≥128TB,支持24个 2.5/3.5寸SAS/SATA 热插拔硬盘位,须为高安全系数企业级标准,组建raid进行数据备份;
(9)LSI 2GB磁盘阵列卡组建RAID。
(10)电源:服务器专用电源93%转化率≥1250W;
(11)网卡:提供极高的数据传输带宽,满足大规模数据并行处理的需求,带宽≥2.56Tbps 23.04Tbps
1.2 CPU计算节点(4台):
(1)外观4U机架式;
(2)处理器:搭载2颗全新未开封正式处理器,单颗处理器的物理核心数≥96核,线程数≥192,主频≥2.40GHz,末级缓存容量≥384MB,热设计功耗≤360W;处理器支持的内存最高速率≥4800MHz、通道数≥12
(3)平台:5 纳米技术,12 通道 DDR5,内存插槽≥24个 DDR5 DIMM,2 个 10Gb/s BASE-T LAN 端口1 x 专用管理端口,1 个超薄 SAS 4i,带 4 个 SATA 6Gb/s 端口,2 个 MCIO 8i,带4 个第 5 代 NVMe 或 16 个 SATA 端口1 个 M.2 插槽,带PCIe Gen4 x4 接口,可支持6张三宽GPU卡。
(4)网络端口:双千兆网络端口,IPMI端口,USB 3.0/2.0,VGA,COM;
(5)散热器:配置2个高速风冷散热器;
(6)内存:系统运行内存≥768GB且支持全通道最大内存频率4800MHz,数量≥24根DDR5 4800,具有错误校验功能提升平台计算精确性和系统稳定性,确保性能最优;
(7)固态硬盘:SSD固态硬盘 ≥1TB ,确保系统运行稳定及数据调度的高效性,最高读7450MB/s、最高写入6900MB/s;
(8)电源:服务器专用电源93%转化率≥1650W;
(9)网卡:提供极高的数据传输带宽,满足大规模数据并行处理的需求,带宽≥2.56Tbps 23.04Tbps
1.3 异构计算GPU节点(1台):
(1)外观4U机架式;
(2)处理器:2颗全新未开封正式处理器,核心数≥96C,线程≥192T,主频≥2.80GHz,满载频率≥3.20G,最大内存通道≥ 12个;TDP≤350W;
(3)平台:4卡supermicro GPU准系统平台;支持4片专业GPU图形计算加速卡,内存插槽≥16 DIMM; 集成8口SATA3硬盘控制器,支持8个热插拔3.5寸SAS/SATA硬盘位,可选SAS RAID卡,支持RAID 0/1/5/6/50/60,支持Cache 超级电容保护,提供RAID状态迁移,RAID配置记忆功能; 集成双千兆双口RJ45,可选万兆双口RJ45,万兆双口光纤等多种网络接口;≥6 PCI-E 4.0 x16;
(4)网络端口:双千兆网络端口,IPMI端口,USB 3.0/2.0,VGA,COM;
(5)散热器:配置高速系统风扇,显卡后置散热套件
(6)内存:系统运行内存≥256GB且支持全通道最大内存频率4800MHz,数量≥16根DDR5 4800,具有错误校验功能提升平台计算精确性和系统稳定性,确保性能最优;
(7)固态硬盘:SSD固态硬盘 ≥1TB ,确保系统运行稳定及数据调度的高效性,最高读7450MB/s、最高写入6900MB/s;
(8)显卡:≥4张GPU加速卡,单卡显存≥24GB ,单卡CUDA核心≥16384个,TDP≤450W
(9)电源:≥2200W 1+1冗余供电系统;
(10)网卡:提供极高的数据传输带宽,满足大规模数据并行处理的需求,带宽≥2.56Tbps 23.04Tbps
1.4 附属配套设备:
管理兼计算网络交换机:≥10G/s数据交换机,高带宽速率、高扩展性、高可靠性、高能效、低延迟网通讯系统,配置6套NVIDIA ConnectX InfiniBand网卡网线
1套KVM:1U KVM 切换器,1U机架式控制台,含一个折叠 17 英寸LCD
1套机柜管理系统:机柜管理系统包括服务器节点BMC管理系统、机柜管理系统或交换节点管理系统,完成机房线路搭建,配置2m(42U)服务器标准机柜,具备良好、高密度散热、配电和扩容,含网络布线、电源等,4kW PDU插座2套
2.软件系统技术指标:
2.1流体动力学高性能计算模拟平台预装linux系统,安装科学计算所需的开发环境和软件,配置好多用户的环境变量管理,并提供相应的技术支持和必要的编译服务,异构GPU计算节点预安装深度学习tensorflow、anaconda,pycharm计算编译环境;
2.2开发环境支持C,C++,Fortran,包括并行计算功能。gcc, g77,gfortran, infortran等编译器,并行编译MPICH2,完成MPI并行计算环境的搭建,局域网搭建;
2.3满足远程使用要求,提供后期升级服务,提供制造商自主研发或商业作业管理软件,提供系统快速部署和管理软件,支持各个平台状态监控,能够平台运行进行动态监控和历史数据分析,包括上电时间、平均负载、CPU 利用率、可用物理内存、磁盘空间占用率以及网络通讯状态等信息;
2.4平台用户账号统一管理统一建立,实现整体平台的概念;支持Linux架构的HPC计算平台;支持(如Suse Linux、Redhat Linux、Centos Linux)多版本的操作系统;支持定义作业的优先级,提供先来先服务、优先级抢占、公平共享、平台资源独占等多种调度策略;作业调度支持多队列管理,各个队列可设置不同管理策略、根据用户作业的运行情况动态调整用户优先级;
2.5提供资源管理和作业调度的编程接口,支持批量作业的快速上传下载;能够在页面上对于现有平台进行相关管理,包括任务创建、暂停、恢复、杀死、调整作业优先级、重新运算、多核心多任务并行等操作,需要提供截图,并原厂盖章。
2.6要求提供统一Web服务门户,支持用户统一身份认证,用户可以通过服务门户使用HPC高性能计算,智能计算系统资源。通过WEB服务门户提交科学计算、智能计算、大数据分析的计算任务,支撑多种业务计算方式。
2.7采用分布式并行存储架构、全模块架构冗余设计,无单一故障点。
2.8提供用于工程和科学应用的数学函数。可以兼容计算软件,支持(1)数学与仿真:用于常用的工程和科学应用,包括数学运算和数据分析;(2)2D和3D可视化:图形函数可视化,注释和输出数据,以及很多方式可以创建和自定义各种类型的图和图表;(3)优化: 解决约束和非约束的连续和离散优化问题的算法;(4)统计:执行数据分析和建模的工具;(5)控制系统设计与分析:用于控制系统研究的标准算法和工具;(6)信号处理:时域和频域信号的可视化,分析和过滤;(7)应用程序开发:增加原生功能和管理与外部工具的数据交换;(8)Xcos-混合动态系统建模工具和仿真器:可进行机械系统, 数字电路,液压回路和控制系统建模等。
2.9安全系统设定(1)对勒索病毒提供多重防御能力,包括禁用客户端远程服务、拦截RDP攻击、拦截数据库攻击、锁定RDP攻击IP地址、客户端账户弱密码检测、弱密码软件检测(如SQL Server和MySQL数据库软件)(2)服务端支持对客户端开启防感染模式,扫描到感染型病毒时,自动进入防感染模式,重新开始全盘扫描并阻止恶意样本反复感染文件(3). 如购买方需要可提供技术驻场服务。
2.10 安装管理软件,支持跨网段和跨平台的集中管理,支持硬件健康监测、备份还原功能等;安装科学计算所需的开发环境和软件,配置好多用户变量管理环境,安装gcc,g77,Gfortran,Ifortran 等编译器,并行编译 MPICH2,提供相应的技术支持和必要的编译服务,完成软件的编译及集群跨节点计算。完成多任务多用户管理,完成并行计算平台搭建及优化网络系统配置,提供系统管理及软件使用入门培训,提供系统管理、系统使用培训,软件报错分析等。局域网搭建,远程调用,提供管理及作业调度系统 PBS/Slurm 管理模块。
2.11系统:支持(如Windows2008/2012/2016、Windows 10、Suse Linux、Redhat Linux、Centos Linux)多版本的操作系统,预装Linux/Windows优化稳定版操作系统,支持Linux和Windows混合架构的HPC计算。
2.12工作站需实现长时间(三个月及以上)连续稳定运行;实现基于Python、C/C++、Java、Fortran等代码的程序开发与基于CPU或GPU的长时间并行计算;实现多个建模与后处理软件运行;实现多个计算软件多核多线程高效率并行运算
注:
1. 加注“▲”号的产品为核心产品(如项目需求书中未明确核心产品,则视为全部产品均为核心产品),任意一种核心产品为同一品牌时,按照第三部分第32.4条款执行。
2. 加注“★”号条款为实质性条款,不得出现负偏离,发生负偏离即作无效响应处理。
第二包
高性能计算机集群
(一)设备用途及功能:
借助高性能计算机集群模拟有机光伏材料性能及光电转换机制。深入研究材料的微观结构、电子传输特性以及光吸收效率。识别材料在不同条件下的行为,例如温度变化、机械应力和环境影响。通过分子动力学(MD)和量子力学(QM)的结合,分析分子间相互作用、能级结构和激发态行为,从而优化材料的设计。利用机器学习和数据挖掘技术,加速材料筛选过程,发现高效且稳定的有机光伏材料,推动光电转换效率的提升和器件的商业化应用。通过这一系列的研究,旨在建立有机光伏材料的理论模型,以指导实际应用中的材料选择与工程设计。
(二)技术要求
CPU计算节点总数:≥ 6
GPU计算节点总数:≥ 1
管理存储节点总数:≥ 1
总存储容量:≥ 62 TB
计算核心:≥ 800 个
1. 配置要求
(1)配有3台胖CPU计算节点,3台CPU计算节点,1台GPU计算节点,1台管理存储节点及1套网络设备;
★(2)胖CPU计算节点及CPU计算节点均含有2颗处理器,单颗核心数≥60,线程数≥120;主频≥2.1GHz;
(3)GPU计算节点及管理存储节点均含有2颗处理器,单颗核心数≥20,线程数≥40;主频≥2.5GHz;
★(4) GPU计算节点含有2张NVIDIA RTX系列显卡,单张显卡存储容量≥24GB,CUDA核心数≥16384个,涡轮式散热;
(5)计算节点及管理存储节点均支持两颗可扩展处理器;
★(6)胖CPU计算节点为16条32G DDR5 5600MHz ECC内存,CPU计算节点为16条16G DDR5 5600MHz ECC内存,GPU计算节点及管理存储节点均为12条16G DDR4 2666MHz ECC内存;
★(7)胖CPU计算节点及CPU计算节点中每颗CPU支持8内存通道,GPU计算节点及管理存储节点每颗CPU支持6内存通道;
(8)管理存储节点配备企业级硬盘,实配盘数应不少于8块,有效存储不小于40TB;
(9)所有节点的电源模块数量均≥1;
(10)支持网络连接、网络ssh访问、数据交换;
(11)每台服务器配备2个CPU,机箱高度2U/4U,机柜高度42U.
2.软件系统技术指标:
2.1服务要求:
2.1.1 CentOS 64bit Linux/CUDA驱动、编译器、调试器、工具包、SDK等;
2.1.2 CUDA FFT、CUDA BLAS等;
2.1.3 GNUC/C++/Fortran编译器、IntelC/C++/Fortran编译器 OpenMPI、MVPAICH2等MPI并行环境;
2.1.4 MKL、BLAS、LAPACK、ScaLAPACK、FFTW等
★2.1.5 常见高性能应用软件(如Vasp,Materials Studio, QuantumATK,LAMMPS,Gaussian, Wien2K, Pymatgen, QuantumEspresso, Ansys, Atomic Simulating Envrionment, Phonon, CALYPSO, USPEX等常用专业软件)的CPU/GPU编译、串行或并行安装及调度系统支持、优化测试,并负责可能伴随的与其windows版本的IP对接功能。供货时提供计算案例文件以供测试。
2.1.6 用户自有程序编译环境支持、编译参数建议、并行调试、调度系统支持、并提供相应的调度脚本。
2.2集群监控
2.2.1 系统支持自定义各种的报警策略,通过对监控指标(负载、CPU 使用率、内存使用率、硬盘使用率、网络吞吐、温度、能耗等)的监测来触发报警,生成报警记录。报警记录包括报警事件、报警时间、报警节点、报警等级、 状态等。提供实时和历史报警记录的查询、确认、解决、删除等操作,支持批量操作。
2.2.2 支持监控GPU资源总量/使用量、核心平均利用率、显存平均利用率、温度、显存频率、核心频率、型号、SN号、负载进程、功耗、风扇转速、PCIE 宽度、PCIE gen、PCIE 接收与发送速率、GPU 驱动版本等指标。
2.2.3 系统支持服务器IB网络流量的监控。系统支持GPU监控:实时和历史趋势图显示集群中节点GPU的使用率、GPU内存使用率、GPU温度等。
2.2.4 可对两种规格CPU计算节点实现分类管理。
2.2.5 系统提供各种监控指标load,cpu使用率,内存使用率,硬盘使用率,网络,作业数量等的热力图, 直观的通过颜色深浅表示节点组中所有节点监控指标的实时值的大小,系统支持在热力图上根据值区间进行节点的过滤。节点详情视图,节点详细列出了节点的静态配置信息(cpu,内存,硬盘,节点名等),提供所有监控指标的热力图的截图证明;
2.2.6 集群报警:系统支持自定义各种的报警策略,通过对监控指标(load,cpu使用率,内存使用率,硬盘使用率,网络吞吐,温度,能耗)的监测来触发报警,生成报警记录。报警记录包括报警事件,报警时间,报警节点,报警等级,状态等。提供截图证明。
2.2.7 集群报告:可以对集群作业进行统计和分析:作业完成数,排队数,作业排队比例。作业最大运行时间,平均运行时间;作业最大排队时间,平均排队时间。作业使用CPU的平均值,作业使用CPU的最大值。作业运行时间的分布图,作业使用资源数的分布图。作业运行和排队的历史趋势图。
2.2.8 平台包括Jupyter Python2, Python3和R等。
2.2.9 平台支持用户创建自定义作业模板, 用户创建的自定义作业模板只能被自己使用。
2.2.10 管理员可以创建和发布作业模板,管理员发布的作业模板,所有用户都可以使用。
2.3资源管理和调度系统
2.3.1 集群管理限制:(1)支持针对任务队列的用户限制,支持任务队列允许用户(组)、禁止用户(组)设置;支持限制单个用户最大任务数、单个任务最大计算核数、单个任务最大运行时间限制;支持限制/允许用户命令行运行程序功能。(2)禁止普通用户以任何方式直接登录和操作资源池的计算节点,普通用户只允许登录管理节点来完成提交作业、整理数据等操作。支持OpenHPC,可以通过lmod根据程序的需要动态导入不同的OpenHPC模块使用,比如导入mpich,openmpi,mvapich,intelmpi,或者导入OpenHPC中的各种性能测试的工具,提供截图证明。
2.3.2 支持将作业均衡的分配到所有计算节点上,调度策略支持先进先出、公平共享、回填、资源预留等多种策略,并支持自定义策略;支持CPU/GPU资源池化集中管理,统一分配;支持集群节点的分区管理;支持用户组的资源分配,可将不同的用户组计算资源调度到不同的计算节点上。
2.3.3 提供常见高性能应用(如VASP, Materials Studio, QuantumATK, LAMMPS, Gaussian, Wien2K, Pymatgen, QuantumEspresso, Ansys, Atomic Simulating Envrionment, Phonon, , CALYPSO, USPEX等常用专业软件)的作业提交。
2.3.4 集群计费系统模块提供高性能计算系统的充值计费,可对多套集群的用户作业实现预充值和实时计费功能并统一管理。管理员可以查看所有用户,或者选定用户一定时间段内的计费。而普通用户能查询自己一段时间内的计费。可以查看不同资源的计费,比如CPU,内存,存储等的花费。可以查看不同队列的计费。可以查看一个时间段花费的历史趋势图。管理员可以查看花费Top5的用户。
注:
1. 加注“▲”号的产品为核心产品(如项目需求书中未明确核心产品,则视为全部产品均为核心产品),任意一种核心产品为同一品牌时,按照第三部分第32.4条款执行。
2. 加注“★”号条款为实质性条款,不得出现负偏离,发生负偏离即作无效响应处理。
3. 加注“◆”号条款为重要技术参数条款。