2026-05-11 14:38:12 -04:00

109 lines
2.2 KiB
Markdown

---
name: dashboard-builder
description: 为 Grafana、SigNoz 等平台构建能够回答实际运维人员问题的监控仪表板。适用于将指标转化为可用的仪表板,而非华而不实的展示板。
origin: ECC direct-port adaptation
version: "1.0.0"
---
# 仪表盘构建器
当任务需要构建一个可供操作人员使用的仪表盘时使用此方案。
目标不是"展示所有指标",而是回答以下问题:
* 系统健康吗?
* 瓶颈在哪里?
* 发生了什么变化?
* 应该采取什么行动?
## 使用场景
* "构建一个Kafka监控仪表盘"
* "为Elasticsearch创建一个Grafana仪表盘"
* "为这个服务制作一个SigNoz仪表盘"
* "将这个指标列表转化为真正的运维仪表盘"
## 约束条件
* 不要从视觉布局开始;要从操作人员的问题出发
* 不要仅仅因为指标存在就包含所有可用指标
* 不要在没有结构的情况下混合健康、吞吐量和资源面板
* 不要发布没有标题、单位和合理阈值的面板
## 工作流程
### 1. 定义操作问题
围绕以下方面组织:
* 健康/可用性
* 延迟/性能
* 吞吐量/容量
* 饱和度/资源
* 服务特定风险
### 2. 研究目标平台架构
首先检查现有仪表盘:
* JSON结构
* 查询语言
* 变量
* 阈值样式
* 分区布局
### 3. 构建最小可用面板
推荐结构:
1. 概览
2. 性能
3. 资源
4. 服务特定分区
### 4. 剔除装饰性面板
每个面板都应回答一个真实问题。如果不能,则移除。
## 示例面板集
### Elasticsearch
* 集群健康
* 分片分配
* 搜索延迟
* 索引速率
* JVM堆/GC
### Kafka
* 代理数量
* 副本不足的分区
* 消息流入/流出
* 消费者滞后
* 磁盘和网络压力
### API网关/入口
* 请求速率
* p50/p95/p99延迟
* 错误率
* 上游健康
* 活跃连接数
## 质量检查清单
* \[ ] 有效的仪表盘JSON
* \[ ] 清晰的分区分组
* \[ ] 包含标题和单位
* \[ ] 阈值/状态颜色有意义
* \[ ] 存在常用过滤器的变量
* \[ ] 默认时间范围和刷新频率合理
* \[ ] 没有对操作人员无价值的装饰性面板
## 相关技能
* `research-ops`
* `backend-patterns`
* `terminal-ops`