跳到主要内容

设计运维工单系统

需求分析

运维工单系统管理所有运维请求的生命周期:提交 → 审批 → 执行 → 验证 → 归档。

工单状态机

工单类型

类型示例SLA
事件(Incident)服务宕机、告警P0: 15min 响应
变更(Change)发布、配置修改需审批
请求(Request)开账号、扩容24h 内处理
问题(Problem)根因分析无硬性 SLA

关键设计点

自动化集成

SLA 管理

  • 按工单优先级设置响应时间和解决时间
  • 超时自动升级(通知团队 Lead → 总监)
  • SLA 达成率作为团队 KPI

常见面试问题

Q1: 如何与监控系统集成?

答案

监控告警通过 Webhook 自动创建工单,关键点:

  1. 告警去重:同一告警在工单未关闭前不重复创建
  2. 告警关联:相似时间段的告警合并为一个事件
  3. 自动分配:根据告警标签(服务、团队)自动派发
  4. 告警恢复:监控恢复后自动更新工单状态

相关链接