半导体

内存暴涨下的 HPC 破局之道:开赟携手 IBM 打出算力优化“组合拳”

ainet.cn   2026年04月09日

在半导体供应链剧烈波动的今天,服务器内存等核心硬件价格一路走高。对于依赖高性能计算(HPC)的企业而言,以往那种“硬件不够就继续堆硬件”的粗放模式,已经难以为继。成本压力之下,如何在不盲目采购新设备的前提下,充分挖掘现有每一根内存条的潜力,已成为关乎企业核心竞争力的关键课题。

上海开赟数字技术有限公司(下文简称开赟)联手 IBM,基于IBM Spectrum LSF(下文简称 LSF)高性能作业调度和资源管理平台,针对内存资源优化,推出了一套“预、调、控、监”深度组合拳,助力企业在算力成本风暴中实现降本增效。

01、用 AI “预”见作业的真实需求

用户提交作业时,常因无法准确预估内存消耗而采取“宁多勿少”的策略。这种做法看似稳妥,实则导致大量内存资源被申请后长期闲置,集群无法接纳新作业,整体利用率低下。

LSF Predictor 结合 IBM watsonx 的机器学习能力,有效的解决了这一问题,系统会自动分析历史作业的特征(用户、提交命令、输入数据等),训练出高精度的预测模型。当用户再次提交作业时,系统会智能预测出作业所需要的内存资源和运行时间,从源头上打破资源虚标,让集群内存利用率实现质的飞跃。

02、精细化“调”度填满每一片内存

简单的调度策略容易造成内存碎片化,大作业进不来,小作业填不满,集群利用率始终徘徊在低位。就像俄罗斯方块堆砌不整,需要经过智能编排,才能合理利用空间、减少资源浪费。

开赟利用 LSF 的高效调度算法,实现对内存资源的“颗粒级”掌控。以回填调度机制为例,当系统为高优先级的大作业预留内存时,调度器会自动寻找时间缝隙,安排短小作业利用等待空窗期运行,确保内存始终处于满载状态。而亲和性调度则确保计算核心优先访问最近的本地内存,通过提升作业运行速度来缩短内存占用周期,变相提高资源周转率。类似这样提升内存利用率的调度策略,在 LSF 中还有很多。开赟基于 LSF,已经积累了丰富的实践经验。

03、用策略“控”制资源边界

某些异常作业或存在内存泄露的程序,可能会吞噬整台服务器的资源,导致系统宕机,影响其他作业。为此,LSF 提供了多维度的机制,来确保内存资源得到合理利用。

LSF 提供了两种内存限制策略:软限制和硬限制。软限制相当于一条“预警线”,系统会尽量将作业的内存消耗控制在此范围内,但允许短暂超出,给予一定的缓冲。而硬限制则是一条不可逾越的“红线”,一旦作业触及,LSF 会立即将其终止,防止单个作业拖垮整个节点。同时 LSF 可与 Linux 底层容器技术深度集成,为每个作业构建多层次的内存防护体系,确保集群整体稳定。与此同时,动态抢占机制还允许核心业务在资源紧张时,“借用”低优先级作业的内存,保障关键任务优先运行。通过这种“软硬兼施”的策略组合,集群能够在稳定运行的前提下,最大化内存资源的有效利用。

04、实时“监”控让浪费无处藏身

如果没有精细的监控,管理员往往难以直观发现集群中哪些作业占用了大量资源却几乎没有实际计算贡献,优化工作也就缺乏明确的数据支撑。

借助 LSF 监控平台,系统能实时识别申请了高额内存、但负载极低的作业,并自动生成按部门、项目组、用户等多维度划分的详细资源消耗报告。还可以借助开赟 ICP 智能算力平台,以 IBM LSF 为底层核心引擎,进一步实现调度、监控、分析与优化的一体化,为企业提供从算力分配到资源优化的全生命周期管理。

这些报告清晰展示了每一部分资源的实际使用效率,帮助管理员快速定位浪费源头,及时回收闲置内存。同时,这些数据也为日常调度策略的调整提供了客观依据,并为未来的硬件采购、集群扩容或架构优化构建了科学的决策闭环,让每一次资源投入都有据可查、有数可依。

案例:芯片设计企业的内存利用率飞跃

以某国内领先的芯片设计企业为例,该客户在 EDA 仿真场景下面临严重的内存资源浪费问题,集群整体内存利用率长期不足 50%,即便持续扩容硬件,作业排队现象依然严重。

开赟基于上述的 LSF 的“预、调、控、监”组合拳,为该客户构建了精准的内存资源管理体系。上线后,集群内存利用率提升至 78%以上,作业平均等待时间缩短超过 30%,这意味着,在不新增硬件的情况下,变相释放出数十台服务器的算力容量,每年为客户节省硬件采购成本数百万元。

LSF 新版本助力更精细的内存管理

用户对内存的使用率越来越重视,为了响应需求,LSF 即将发布的新版本中,将新增一项内存报告功能,大幅增强对作业内存使用情况的统计能力。该功能不仅可以从作业粒度查看内存数据(如申请的内存、实际使用的峰值和平均值,以及 swap 用量),还能提供衍生指标(包括内存浪费或不足、使用压力、风险等级、峰值与均值的对比),并支持按运行时长加权计算整体内存使用效率。在统计总览中,还可以看到平均内存用量、作业申请的合理性、风险分布,以及整体内存预留、使用、浪费与不足的累计情况,便于全面评估集群的内存利用率和作业申请的合理性。

在硬件价格持续高涨的当下,“精耕细作”已不再是锦上添花,而是 HPC 持续发展的必然选择。上海开赟与 IBM 联合打造的这套组合方案,将 AI 的智能预测、调度的精细控制、风控的严密边界与监控的透明可视融为一体,形成了一套完整的资源优化闭环。通过技术手段,让企业每一分硬件投入都转化为实实在在的科研产出与生产效率,实现真正意义上的“降本增效”。

“在硬件成本持续高企的背景下,HPC 集群的内存利用率,直接决定了企业的研发效率与竞争力。开赟基于 LSF 打造的“预、调、控、监”方案,从 AI 预测到精细化调度,再到多层次透明监控,真正帮助企业用好每一字节内存。这不仅是技术升级,更是算力管理理念的革新。”——上海开赟数字技术有限公司副总经理杨杰

“LSF 的核心优势不仅在于其强大的调度能力,更在于它能够与 AI 等前沿技术深度融合,让资源预测从“凭经验”变成“靠数据”,解决用户最真实的痛点。此外,LSF 通过智能的数据管理机制,进一步优化了作业执行过程中的数据访问与迁移效率。LSF 还有非常丰富的调度策略,全方位保障集群的高效运行。”——IBM 中国科技事业部架构师何金池

“当前,算力已成为企业数智化转型的核心承载力,提效的关键在于资源的精细化管理。我们携手开赟,基于 LSF 打造了从调度、预测到监控的闭环方案,帮助企业在不增购硬件的前提下,充分释放现有算力潜力。未来,IBM 将持续深耕 HPC 领域的技术创新,助力企业真正实现降本增效与业务增长的双赢。”——IBM 大中华区自动化业务总经理许伟杰

(IBM中国)

标签:IBM 我要反馈 
剑维软件:电子半导体行业的数字化未来
专题报道
2026汉诺威工业博览会专题报道
2026汉诺威工业博览会专题报道

2026年汉诺威工业博览会(Hannover Messe)在德国汉诺威圆满闭幕。作为全球最具影响力的工业技术盛会之一,本... [更多]

2026国际消费类电子产品展览会
2026国际消费类电子产品展览会

2026年1月6-9日,2026国际消费电子展(CES)在美国拉斯维加斯举办。 [更多]

2025全景工博会
2025全景工博会

第二十五届中国国际工业博览会(简称“中国工博会,CIIF”)将于今年9月23至27日在国家会展中心(上海)举行。 [更多]