上传者: 24027457
|
上传时间: 2025-07-24 20:12:07
|
文件大小: 122KB
|
文件类型: JSON
在海光 DCU 资源监控体系中,Grafana 面板发挥着至关重要的作用,为用户提供了直观且强大的数据可视化体验。
功能特性
丰富数据源集成:Grafana 面板能够轻松对接多种数据源,对于海光 DCU 资源监控而言,可无缝集成从海光 DCU 资源监控脚本获取的数据,也能与 Prometheus 这类时间序列数据库联动。通过插件化接入方式,免去繁琐的接入工作,即使面对复杂的 IT 架构,包括传统服务器环境、Kubernetes 集群,甚至不同云服务环境下的海光 DCU 数据,都能实现高效采集。同时支持 VPC 数据源通道,可达成跨云、跨地域、跨 VPC 的数据访问,确保无论 DCU 部署在何处,其资源数据都能被精准获取并用于可视化展示。
多样化可视化呈现:预置了近百种图表组件,能够满足不同类型数据的展示与分析需求。在海光 DCU 资源监控场景中,用户可以利用折线图清晰呈现 DCU 算力利用率随时间的变化趋势,帮助运维人员及时察觉算力使用的波动情况;柱状图则适合对比不同 DCU 之间的显存使用量,方便快速定位显存占用较高或较低的设备;而对于 DCU 的温度分布,热力图能直观展示各 DCU 温度状态,以不同颜色区分温度区间,让运维人员对整体温度状况一目了然,及时发现过热风险点。此外,像 3D 地图、拓扑关系图等异形图表,在大规模 DCU 集群部署场景下,可用于直观展示 DCU 的物理位置分布以及设备间的关联关系,辅助运维人员进行资源管理与故障排查。
灵活告警配置:打通了钉钉、飞书、企业微信等常见协同工具,结合低代码事件预处理流程工具,能够实现告警的去重、降噪,有效提升告警的准确度。用户可依据海光 DCU 各项资源指标,如温度阈值、算力利用率上限、显存使用百分比临界值以及功耗异常范围等,灵活制定告警策略。当 DCU 资源使用超出设定阈值时,系统能及时通过已连接的协同工具向