2026-05-11 14:38:12 -04:00

2.2 KiB

name, description, origin, version
name description origin version
dashboard-builder 为 Grafana、SigNoz 等平台构建能够回答实际运维人员问题的监控仪表板。适用于将指标转化为可用的仪表板,而非华而不实的展示板。 ECC direct-port adaptation 1.0.0

仪表盘构建器

当任务需要构建一个可供操作人员使用的仪表盘时使用此方案。

目标不是"展示所有指标",而是回答以下问题:

  • 系统健康吗?
  • 瓶颈在哪里?
  • 发生了什么变化?
  • 应该采取什么行动?

使用场景

  • "构建一个Kafka监控仪表盘"
  • "为Elasticsearch创建一个Grafana仪表盘"
  • "为这个服务制作一个SigNoz仪表盘"
  • "将这个指标列表转化为真正的运维仪表盘"

约束条件

  • 不要从视觉布局开始;要从操作人员的问题出发
  • 不要仅仅因为指标存在就包含所有可用指标
  • 不要在没有结构的情况下混合健康、吞吐量和资源面板
  • 不要发布没有标题、单位和合理阈值的面板

工作流程

1. 定义操作问题

围绕以下方面组织:

  • 健康/可用性
  • 延迟/性能
  • 吞吐量/容量
  • 饱和度/资源
  • 服务特定风险

2. 研究目标平台架构

首先检查现有仪表盘:

  • JSON结构
  • 查询语言
  • 变量
  • 阈值样式
  • 分区布局

3. 构建最小可用面板

推荐结构:

  1. 概览
  2. 性能
  3. 资源
  4. 服务特定分区

4. 剔除装饰性面板

每个面板都应回答一个真实问题。如果不能,则移除。

示例面板集

Elasticsearch

  • 集群健康
  • 分片分配
  • 搜索延迟
  • 索引速率
  • JVM堆/GC

Kafka

  • 代理数量
  • 副本不足的分区
  • 消息流入/流出
  • 消费者滞后
  • 磁盘和网络压力

API网关/入口

  • 请求速率
  • p50/p95/p99延迟
  • 错误率
  • 上游健康
  • 活跃连接数

质量检查清单

  • [ ] 有效的仪表盘JSON
  • [ ] 清晰的分区分组
  • [ ] 包含标题和单位
  • [ ] 阈值/状态颜色有意义
  • [ ] 存在常用过滤器的变量
  • [ ] 默认时间范围和刷新频率合理
  • [ ] 没有对操作人员无价值的装饰性面板

相关技能

  • research-ops
  • backend-patterns
  • terminal-ops