当前位置:首页 >> 计算机硬件及网络 >>

大连大学HPC解决方案


大连理工大学 高性能计算平台 筹建工作进展汇报
网络与信息化中心 2010/12/7

议程
? 高性能计算平台的定位

? 高性能平台的接入方式
? 64节点平台试运行的情况 ? 国内高校建设情况 ? 调研和高性能平台设计 ? 高性能计算平台的工程问题 ? 机房准备情况 ? 高性能平台的管理工作

高性能计算平台的定位
? 面向全校的公共计算平台,集中管理和运行主要的通用商 用软件、开源软件和自研软件,能够支持千核以上大应用 及大内存、大存储应用,满足全校师生大部分通用计算求 解的需求。 ? 在全国高校计算能力排名进入前五名,在全国Top100排名 进入前20名。 ? 预期CPU峰值不低于68Tflops。

高性能计算平台接入方式
? 专网接入:通过校园网主干万兆接入楼宇,千兆接入桌面; 专网专用,接入特定的终端计算机。主要用于有大数据量 传输需求,长期的大规模使用用户。 ? 校园网接入:通过正常校园网接入使用计算平台。用于无 大数量传输需求的普通用户,以及作业远程监控等业务。 ? 主要通用软件采用浮动许可方式,配合作业调度系统动态 调度。 ? 建议各院系专项购置经费以购置胖计算节点、前后处理工 作站等设备为主。

64节点平台的架构
刀片计算节点 千兆计算网络

多万兆同校内 其他节点互联
EMC NS-G2

EMC CX4-960

10 x 1Gbps 存储链路

2 x 4Gbps FC 存储链路 EMC NS-G2
EMC CX4-960

MPFSi存储网络

64节点平台主要配置
? 刀片式计算节点64套
? Intel E5520 x2 ? 24G 内存 ? 双千兆接口

? 存储系统
? MPFSi并行文件系统,容量10TB ? 通网信中心其他服务共用EMC CX4-960硬盘阵列 ? 实测聚合吞吐大于600MB/s

? 计算网络
? 144端口千兆线速、4端口万兆线速

? Linkpack实测峰值3.317Tflops,效率71.6%

64节点计算平台

64节点高性能平台试运行情况
? 自主完成系统平台调优和软件集成测试,包括常见的开源和商业软件。

? 编写完成《大连理工大学高性能计算平台用户使用手册》,完成上机指导、源码编译 指导、常见开源、商业软件算例并行方式等内容。
? 制作了《大连理工大学高性能计算平台用户申请表》 ? 邀请校内相关学科进行测试,已经运行
? ? ? ? 化学、物理、计算机、电气、力学等学科 Gaussian、Ansys、Fluent、Matlab等商业软件 Gromacs等一批开源和自主版权软件。 Intel MPI、MPICH、MPICH2等并行环境,GNU Compiler、Intel Compiler等编译器

? 2010年5月投入试运行以来,严格按照已经制定的规则进行系统、用户及作业管理。 ? 系统已经连续稳定运行190天,最长单个作业运行120天。 ? 系统已经累计提供计算机时100348 CPU小时

64节点高性能平台运行情况

2010年11月国内Top100排名情况
序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 安装地点 安装年份 2010 2010 2010 2008 2008 2010 2010 2010 2010 2009 2009 2009 2010 2010 2010 2010 2009 2010 2010 2009 CPU核数 202752 120640 33120 30720 12160 5720 4160 8960 7848 7168 7168 7168 3660 6400 6400 6120 8296 3800 4500 3200 国家超级计算天津中心 曙光公司 中国科学院过程工程研究所 上海超级计算中心 中国科学院超级计算中心 成都超级计算中心(二期) 中国科学院计算技术研究所 工程公司 中国电信 网络公司 网络公司 网络公司 北京市计算中心(二期) 服务提供商 服务提供商 网络公司 电信公司 吉林大学 中国石油东方地球物理勘探 19 有限公司 20 南京大学 Linpack值 峰值 效率 (Gflops) (Gflops) 2507000 4701000 0.533 1271000 2984300 0.426 207300 1138440 0.182 180600 233472 0.774 106500 145293 0.733 76350 141390 0.54 55528 102829 0.54 51200 90680 0.565 41880 79420 0.527 41270 72540 0.569 41270 72540 0.569 41270 72540 0.569 38527 79112 0.487 36940 64770 0.57 36940 64770 0.57 35330 61930 0.57 34937 65750 0.531 34080 40094 0.85 32079 31310 47880 34048 0.67 0.92

本年度国内教育科研HPC建设情况
用户 天津超算中心 行业 超算 规模 (计算能力) 2507万亿次 CPU Xeon5670 2.93GHz Xeon5670 2.93GHz Xeon5670 2.93GHz Xeon5650 2.66GHz Xeon5650 2.66GHz Xeon5650 2.66GHz Xeon5550 2.66GHz Xeon5430 2.66GHz Xeon5550 2.66GHz Xeon5560 2.8GHz 存储 计算网络 管理网络 以太网 招标时间 2009年1期 2010年2期 2PB 自研网络(80Gbps)

清华大学
复旦大学 吉林大学 山东大学 中科院生物物 理所 南京大学 山西师范大学

高教
高教 高教 高教 科研 高教 高教 科研 科研

100万亿次
64万亿次 40万亿次 10.6万亿次 13万亿次 34万亿次 10.9万亿次 28.8万亿次 10万亿次

1PB
100TB 100TB 50TB 50TB 150TB 50TB 750TB 24TB

QDR Infiniband
QDR Infiniband QDR Infiniband QDR Infiniband QDR Infiniband DDR Infiniband DDR Infiniband DDR Infiniband DDR Infiniband

以太网
以太网 以太网 以太网 以太网 以太网 以太网 以太网 以太网

2010年
2010年 2010年 2010年 2010年 2009年 2009年 2009年 2009年

中科院大气物 理所 中科院合肥超 算中心

2010年国内Top20新增机器分析
? 配置大容量内存
? 部分计算需要单核4G以上内存

? 科学计算类网络为Infiniband QDR或更高 ? 大容量、高性能存储
? 根据其他高校运行经验,一般存储的容量和性能往往是系统 的瓶颈。

? 高密度服务器机柜采用水冷制冷

同主要厂家进行详尽技术交流
? 同Dell、曙光、联想、浪潮每家经过5次以上的现场技术 交流,IBM、HP每家经过3次以上的现场技术交流。 ? 同核心设备/配件生产厂家、作业调度管理软件厂家等进 行多次技术交流与研讨。 ? 前期的技术交流主要是了解各个厂商对于高性能建设和运 行的经验,完成我校高性能机房的基础设计,保证能够满 足主流设备的要求。 ? 后期的技术交流主要是细化我校高性能平台设计,保证方 案合理可行,能够满足可靠、高效运行。

大型高性能计算机群系统 建设和运行的主要问题
? 基础环境
? 电力质量、连续性 ? 制冷能力、效率 ? 线缆的可维护性

? 运行管理
? 保证系统维护不中断计算 ? 保证作业的严格、统一调度管理 ? 建立有效的作业效益考核机制,避免无效作业

? 系统建设
? 计算能力、网络能力、存储能力平衡,避免出现瓶颈 ? 具备高可用性设计,保证系统多年连续稳定运行

高性能平台设计原则
? 采用主流产品和技术 ? 系统结构简洁、高效,便于维护 ? 系统设计和部件选择能够满足长期连续可靠运行的需求 ? 计算、存储、网络平衡设计,满足系统的长期高负载运行 要求 ? 调度软件能够进行复杂的策略调度和软件许可管理 ? 系统能同时满足大量小型作业运行需求和千核以上大作业 运行的需求

总体架构
GPU计算节点 8Gb FC网络 IB QDR计算网络 千兆管理以太网

瘦计算节点 存储系统 胖计算节点 登录和编译节点

管理终端

瘦计算节点
? 技术细节(略)

胖计算节点
? 技术细节(略)

GPU计算节点
? 技术细节(略)

管理和登录节点
? 技术细节(略)

存储系统
? 100TB高性能存储 ? 100TB大容量存储 ? 具备高可用机制

I/O节点
? I/O节点通过IB QDR网络提供并行文件系统 ? 具备较高的并发聚合带宽 ? 任一IO节点宕机应不影响存储系统正常使用

计算、管理网络和其他辅助设备
? 配置大容量IB QDR交换机 ? 采用满足需求的商业作业调度系统 ? 水冷机柜及其他配套设施

作业调度需求
? 要求高性能计算平台能将所有软硬件资源有机地组合在一 起,能够根据不同任务的不同特点进行软硬件资源的合理、 高效调度,实现实时作业、长时间运行的作业、测试作业 等各种作业能够有序、高效运行,统一调度、统一管理, 建立一体化高性能平台,满足科研的需要。
? 统一管理和调度:能够根据作业类型、用户类型,依据预定 的资源分配策略,进行合理、高效、有序的软硬件资源调度。 ? 丰富的调度策略:能够提供丰富的调度策略,保证系统资源 的最优使用,保证重要作业能够及时获得足够资源。 ? 安全控制机制:能够避免用户对内部节点的非法入侵,保证 用户对资源的正确使用。 ? 完善的报表机制:能够对系统、用户、软件许可的使用情况 做出丰富的报表,满足对系统容量、软件许可的规划需求。

水冷机柜
? 单机柜功率约为22KW-25KW,机房整体风冷通常要求单机 柜功率最大不超过15KW。 ? 风冷效率要低于水冷,长期运行水冷机柜有更好的经济效 益。
? 约3年左右节约的电费可以收回因水冷机柜增加的成本。

水冷系统

高性能平台建设的工程问题
? 根据国内几个大型高性能计算平台建设的实际经验,建设 时的具体工程问题会严重影响到整个系统的可维护性、可 靠性和性能。如:
? ? ? ? ? 大量线缆的高密度布放 IB线缆的误码率 制冷机组的通风条件 电力系统的可靠性 机柜的散热效率等

国内的某个机群实际布线情况

机房建设完成情况
? 符合国家A级机房标准。

? 目前提供240KVA双母线供电,可无缝扩展至480KVA双母线供电; 具备完善的电源管理机制,可以监控每个支路电力参数;预留标 准工业电源接口。
? 大容量上走线强弱电桥架系统,机柜可以灵活布置

? 预留水冷机柜管路、机组、供电位置;预留第二组机房环境空调 位置。
? 多层防火、隔热参观玻璃幕和大屏幕投影。在不降低机房运行标 准情况下,保证便于参观、展示。

? 机房具备完善的消防、安全设施(自动气体消防、指纹门禁、长 时间硬盘录像等)。

参观玻璃幕

机房内部

配电系统

办公区

高性能计算平台的管理
? 网信中心成立高性能计算管理部,专职负责高性能计算平 台日常运行和管理。 ? 面向全校聘请专家建立高性能计算管理咨询委员会,负责 高性能平台管理调度策略制定、软件许可分配策略等工作。 ? 建立合理可行的平台使用效益考核制度,提高高性能计算 平台的运行效益,形成良性循环。


赞助商链接
相关文章:
第三届“政德律师杯”大学生法律知识竞赛活动总结
第三届“政德律师杯”大学生法律知识竞赛活动总结_营销/活动策划_计划/解决方案...活动名称 大连大学第三届“政德律师杯”大学生法律知识竞赛 二、活动概述 本次...
大连大学_本科教学工作水平评估整改方案
大连大学教学工作奖励办法》,加大对在教学改革、教学研究、 教学基本建设等方面取得优秀成绩的教师的奖励力度, 同时严格执行教学事 故认定及处理办法, 逐步使广大...
大学社团文化建设
大学社团文化建设_学习计划_计划/解决方案_实用文档。大学生社团文化建设 大连大学社团文化建设一、社团文化含义 大学社团文化,是指在大学生社团文化建设中所创造的...
2015年大连市科技活动周实施方案
2015年大连市科技活动周实施方案_解决方案_计划/解决方案_实用文档。2015年大连...二维码大数据体重秤现场测评参与活动 时地间:5 月—6 月点:大连外国语大学 ...
大连大学博物馆观后感
大连大学博物馆观后感_营销/活动策划_计划/解决方案_实用文档。大连大学博物馆观后感 生命的色彩,科学的创新今天,我们利用生物课时间参观了我们学校的博物馆,在老师的...
优秀英语教师个人简介_解决方案_计划/解决方案_实用文档
优秀英语教师个人简介_解决方案_计划/解决方案_实用文档。优秀英语教师个人简介 ...月大连大学英语教育 1998 年 7 月-2002 年 8 月大连教育 学院英语专业 工作...
大连市高层次人才医疗保健服务实施细则(5.5)
大连市高层次人才医疗保健服务实施细则(5.5)_解决方案_计划/解决方案_实用文档...大连医科大学附属一院、大连医科大学附属二院、大连大学附属 中山医院等 5 所综合...
国网运行分公司_解决方案_计划/解决方案_实用文档
国网运行分公司_解决方案_计划/解决方案_实用文档。国网运行分公司 ...大连交通大学 河西学院 湖北经济学院 陇东学院 内蒙古科技大学 陇东学院 北京信息...
大连大学二轴五档式变速器结构设计 毕业设计开题报告
大连大学 本科毕业论文(设计)开题报告 论学 文 题...二、论文(设计)研究的内容 1.重点解决的问题; 2....对设 计的方案的具体部分进行理论计算, 并且进行...
语言活动策划_营销/活动策划_计划/解决方案_实用文档
语言活动策划_营销/活动策划_计划/解决方案_实用文档。大连大学英语学院 中西方语言...大连大学英语学院 中西方语言文化对比大赛— 策划书 主办单位:大连大学英语学院...
更多相关标签: