一、运维的目标

  • 提升可用性:多机房部署、服务降级
  • 提高效率:自动化工具
  • 成本优化:容器化

二、运维工作职责

  • 架构梳理:手绘架构图,基础架构 + 运维架构
  • 监控告警:完善监控,系统巡检,告警快速响应,值班机制
  • 变更规范:变更制度,变更周知,变更验证、变更回滚
  • 故障恢复:以“快速恢复”为主要目标。先流量调度、扩容、限流、降级。
  • 故障演练:定期组织演练,机房容量、机房断网、降级服务
  • 自动化工具:CI/CD,系统大盘信息、变更验证、巡检
  • 容量评估:流量评估、容量评估
  • 全链路压测:找出系统瓶颈点,获取应用服务的QPS。
  • 紧急事件:快速恢复、故障周知、故障升级、故障回溯、故障原因、优化措施(如何避免同样的问题)。
  • 瓶颈点优化:发现瓶颈点,优化服务