mirror of
https://github.com/affaan-m/everything-claude-code.git
synced 2026-05-14 18:44:44 +08:00
109 lines
2.2 KiB
Markdown
109 lines
2.2 KiB
Markdown
---
|
|
name: dashboard-builder
|
|
description: 为 Grafana、SigNoz 等平台构建能够回答实际运维人员问题的监控仪表板。适用于将指标转化为可用的仪表板,而非华而不实的展示板。
|
|
origin: ECC direct-port adaptation
|
|
version: "1.0.0"
|
|
---
|
|
|
|
# 仪表盘构建器
|
|
|
|
当任务需要构建一个可供操作人员使用的仪表盘时使用此方案。
|
|
|
|
目标不是"展示所有指标",而是回答以下问题:
|
|
|
|
* 系统健康吗?
|
|
* 瓶颈在哪里?
|
|
* 发生了什么变化?
|
|
* 应该采取什么行动?
|
|
|
|
## 使用场景
|
|
|
|
* "构建一个Kafka监控仪表盘"
|
|
* "为Elasticsearch创建一个Grafana仪表盘"
|
|
* "为这个服务制作一个SigNoz仪表盘"
|
|
* "将这个指标列表转化为真正的运维仪表盘"
|
|
|
|
## 约束条件
|
|
|
|
* 不要从视觉布局开始;要从操作人员的问题出发
|
|
* 不要仅仅因为指标存在就包含所有可用指标
|
|
* 不要在没有结构的情况下混合健康、吞吐量和资源面板
|
|
* 不要发布没有标题、单位和合理阈值的面板
|
|
|
|
## 工作流程
|
|
|
|
### 1. 定义操作问题
|
|
|
|
围绕以下方面组织:
|
|
|
|
* 健康/可用性
|
|
* 延迟/性能
|
|
* 吞吐量/容量
|
|
* 饱和度/资源
|
|
* 服务特定风险
|
|
|
|
### 2. 研究目标平台架构
|
|
|
|
首先检查现有仪表盘:
|
|
|
|
* JSON结构
|
|
* 查询语言
|
|
* 变量
|
|
* 阈值样式
|
|
* 分区布局
|
|
|
|
### 3. 构建最小可用面板
|
|
|
|
推荐结构:
|
|
|
|
1. 概览
|
|
2. 性能
|
|
3. 资源
|
|
4. 服务特定分区
|
|
|
|
### 4. 剔除装饰性面板
|
|
|
|
每个面板都应回答一个真实问题。如果不能,则移除。
|
|
|
|
## 示例面板集
|
|
|
|
### Elasticsearch
|
|
|
|
* 集群健康
|
|
* 分片分配
|
|
* 搜索延迟
|
|
* 索引速率
|
|
* JVM堆/GC
|
|
|
|
### Kafka
|
|
|
|
* 代理数量
|
|
* 副本不足的分区
|
|
* 消息流入/流出
|
|
* 消费者滞后
|
|
* 磁盘和网络压力
|
|
|
|
### API网关/入口
|
|
|
|
* 请求速率
|
|
* p50/p95/p99延迟
|
|
* 错误率
|
|
* 上游健康
|
|
* 活跃连接数
|
|
|
|
## 质量检查清单
|
|
|
|
* \[ ] 有效的仪表盘JSON
|
|
* \[ ] 清晰的分区分组
|
|
* \[ ] 包含标题和单位
|
|
* \[ ] 阈值/状态颜色有意义
|
|
* \[ ] 存在常用过滤器的变量
|
|
* \[ ] 默认时间范围和刷新频率合理
|
|
* \[ ] 没有对操作人员无价值的装饰性面板
|
|
|
|
## 相关技能
|
|
|
|
* `research-ops`
|
|
* `backend-patterns`
|
|
* `terminal-ops`
|