GitLab CI / Jenkins / ArgoCD 主流方案落地,从代码 commit 到生产部署全流水线打通。蓝绿、金丝雀、回滚策略一键切换。
对接代码扫描(SonarQube)、单元测试覆盖率门禁、镜像安全扫描(Trivy)全链路质量保障。
阿里云 ACK、腾讯云 TKE、华为云 CCE、自建 K8s 全支持。集群升级、节点池弹性扩缩、Operator 维护、Helm Chart 版本管理。
HPA / VPA / KEDA 三种自动扩缩容方案,按业务负载特征选型。
5 朵主流云(阿里云、腾讯云、华为云、AWS、GCP)的资源统一通过 Terraform 编码管理,环境一致性保障。
成本看板:按业务线、按团队、按云厂商三维度拆账,每月发资源浪费 Top 10 优化建议。
Prometheus 指标 + Loki 日志 + Tempo 链路 + Grafana 可视化 + Alertmanager 告警,全栈观测套件标准化部署。
告警分级(P1/P2/P3)、多通道分发(钉钉群、企微群、飞书、电话)、告警抑制与升级策略。
每个客户固定 2 名 SRE 长期负责,5×8 业务时段实时响应 + 7×24 应急值守,P1 故障 5 分钟接管。
故障复盘 RCA 报告 48 小时内输出,原因、改进、ETA 公开化。月度故障演练保持团队战斗力。
等保 2.0 三级合规建设全程参与:差距分析、整改方案、产品采购、测评对接。
日常安全:密钥管理(HashiCorp Vault)、漏洞扫描(Nessus / Trivy)、入侵检测(OSSEC)、安全日志审计。
2 个工作日尽调,30 天内可接管。试用一个月不满意可终止。