设计运维工单系统
需求分析
运维工单系统管理所有运维请求的生命周期:提交 → 审批 → 执行 → 验证 → 归档。
工单状态机
工单类型
| 类型 | 示例 | SLA |
|---|---|---|
| 事件(Incident) | 服务宕机、告警 | P0: 15min 响应 |
| 变更(Change) | 发布、配置修改 | 需审批 |
| 请求(Request) | 开账号、扩容 | 24h 内处理 |
| 问题(Problem) | 根因分析 | 无硬性 SLA |
关键设计点
自动化集成
SLA 管理
- 按工单优先级设置响应时间和解决时间
- 超时自动升级(通知团队 Lead → 总监)
- SLA 达成率作为团队 KPI
常见面试问题
Q1: 如何与监控系统集成?
答案:
监控告警通过 Webhook 自动创建工单,关键点:
- 告警去重:同一告警在工单未关闭前不重复创建
- 告警关联:相似时间段的告警合并为一个事件
- 自动分配:根据告警标签(服务、团队)自动派发
- 告警恢复:监控恢复后自动更新工单状态