云计算

云计算数据中心智能运维全栈观察的基础——带内遥测技术浅析

ainet.cn   2021年11月22日

  随着数字化转型企业对云计算基础架构依赖程度的提高,融合了大数据和人工智能最新发展的智能运维(AIOps)逐渐成为提高基础架构服务质量的关键[1]。Gartner 在 AIOps 的研究报告[2]中指出,AIOps 平台应由观察(Observe)、处理(Engage)和行动(Act)三个部分结合大数据和机器学习组成一个闭环结构,而观察是触发整个闭环反馈的基础和关键,没有高质量的全栈观察,就缺乏人工智能所需的大数据源,因而也无法形成智能化的处理和相应的主动运维行为。但在性能飞速提升的数据中心,数据平面观察是一直以来的难点。为网络设备制定硬件可编程语言标准的开源组织 P4(p4.org)对带内网络的遥测(In-band Network Telemetry,INT)定义了三种类型的技术思路 —— eMbed Data(MD),eMbed instruct(X)ions(MX)和 INT eXport Data(XD)—— 基本涵盖了主流的 INT 技术实现方式[3]。

  从当前业内云数据中心交换设备对这几种思路的商业化实现上看,INT MD 功能全面但对资源和处理性能要求高,商用化多实现在 9.6T-25.6Tbps 级别的单芯片系统上;INT MX 相对轻量化,但功能有限,对系统功能整合度要求高,多实现在厂商特定功能集内;IN TXD 做到了功能和开销的相对平衡,成本和实用性更有优势,但对芯片设计的门槛要求更高。采用不同权衡策略的商业化产品功能差异较大,需要不同企业在 AIOps 设计时根据需求详细考查。从未来发展上看,通用企业数据中心会偏重将带内遥测通过 XD 方式实现,同时用 MX 做进一步功能补充;而运营商和互联网企业在升级到 100/200G 接入或普遍引入智能网卡之后,会重点考虑 MD 功能。当然工程上的实现并不绝对,不同解决方案会走向某种模式为主、其他模式补充的混合形态,以追求性能、功能与代价的最优平衡[4]。

  参考文献

  [1]魏航,刘军.构建数字化转型企业以用户体验为中心的 IT 架构[J].数码世界,2020(05).

  [2]Pankaj Prasad,Padraig Byrne.Market Guide for AIOps Platforms[R].Gartner,2021

  [3]P4.In-band Network Telemetry (INT) Dataplane Specification[EB/OL].https://p4.org, 2020-02-14

  [4]魏航.数据中心网络智能运维的带内遥测技术[J].数字通信世界,2021(09).

(转载)

标签:思科 我要反馈 
泰科电子ECK、ECP系列高压直流接触器白皮书下载
亿万克
专题报道
2025全景工博会
2025全景工博会

第二十五届中国国际工业博览会(简称“中国工博会,CIIF”)将于今年9月23至27日在国家会展中心(上海)举行。 [更多]

智能制造标杆企业展播
智能制造标杆企业展播

为了讲述我国实体经济推进高质量发展的鲜活实例,发挥好典型企业实施智能制造的示范作用,提振广大制造业企业推进转型升级的信心... [更多]

2025世界人工智能大会
2025世界人工智能大会

2025世界人工智能大会暨人工智能全球治理高级别会议(简称“WAIC 2025”)将于7月在上海世博中心和世博展览馆举行... [更多]