everything-claude-code/docs/zh-CN/skills/dashboard-builder/SKILL.md

---
name: dashboard-builder
description: 为 Grafana、SigNoz 等平台构建能够回答实际运维人员问题的监控仪表板。适用于将指标转化为可用的仪表板，而非华而不实的展示板。
origin: ECC direct-port adaptation
version: "1.0.0"
---

# 仪表盘构建器

当任务需要构建一个可供操作人员使用的仪表盘时使用此方案。

目标不是"展示所有指标"，而是回答以下问题：

* 系统健康吗？
* 瓶颈在哪里？
* 发生了什么变化？
* 应该采取什么行动？

## 使用场景

* "构建一个Kafka监控仪表盘"
* "为Elasticsearch创建一个Grafana仪表盘"
* "为这个服务制作一个SigNoz仪表盘"
* "将这个指标列表转化为真正的运维仪表盘"

## 约束条件

* 不要从视觉布局开始；要从操作人员的问题出发
* 不要仅仅因为指标存在就包含所有可用指标
* 不要在没有结构的情况下混合健康、吞吐量和资源面板
* 不要发布没有标题、单位和合理阈值的面板

## 工作流程

### 1. 定义操作问题

围绕以下方面组织：

* 健康/可用性
* 延迟/性能
* 吞吐量/容量
* 饱和度/资源
* 服务特定风险

### 2. 研究目标平台架构

首先检查现有仪表盘：

* JSON结构
* 查询语言
* 变量
* 阈值样式
* 分区布局

### 3. 构建最小可用面板

推荐结构：

1. 概览
2. 性能
3. 资源
4. 服务特定分区

### 4. 剔除装饰性面板

每个面板都应回答一个真实问题。如果不能，则移除。

## 示例面板集

### Elasticsearch

* 集群健康
* 分片分配
* 搜索延迟
* 索引速率
* JVM堆/GC

### Kafka

* 代理数量
* 副本不足的分区
* 消息流入/流出
* 消费者滞后
* 磁盘和网络压力

### API网关/入口

* 请求速率
* p50/p95/p99延迟
* 错误率
* 上游健康
* 活跃连接数

## 质量检查清单

* \[ ] 有效的仪表盘JSON
* \[ ] 清晰的分区分组
* \[ ] 包含标题和单位
* \[ ] 阈值/状态颜色有意义
* \[ ] 存在常用过滤器的变量
* \[ ] 默认时间范围和刷新频率合理
* \[ ] 没有对操作人员无价值的装饰性面板

## 相关技能

* `research-ops`
* `backend-patterns`
* `terminal-ops`