一、运维的目标
- 提升可用性:多机房部署、服务降级
- 提高效率:自动化工具
- 成本优化:容器化
二、运维工作职责
- 架构梳理:手绘架构图,基础架构 + 运维架构
- 监控告警:完善监控,系统巡检,告警快速响应,值班机制
- 变更规范:变更制度,变更周知,变更验证、变更回滚
- 故障恢复:以“快速恢复”为主要目标。先流量调度、扩容、限流、降级。
- 故障演练:定期组织演练,机房容量、机房断网、降级服务
- 自动化工具:CI/CD,系统大盘信息、变更验证、巡检
- 容量评估:流量评估、容量评估
- 全链路压测:找出系统瓶颈点,获取应用服务的QPS。
- 紧急事件:快速恢复、故障周知、故障升级、故障回溯、故障原因、优化措施(如何避免同样的问题)。
- 瓶颈点优化:发现瓶颈点,优化服务