> 圈田运维
DEVOPS · SRE

凌晨三点的告警交给值班的我们

圈田运维为长沙及周边互联网团队提供 DevOps 流水线、K8s 集群、多云资源、监控告警、SRE 值守一站托管。让工程师睡得着觉,让 CTO 看得到指标。

36
托管客户
1200+
节点数
99.99%
SLA 达标
5min
告警响应
grafana.229672.com — 集群总览
在管节点
1234
K8s 86%
CPU 利用
42%
P99 78%
告警
3
P2 处理中
QPS
28.4K
环比 +12%
us-east62%
cn-hz48%
cn-sh35%
internal22%
capability

六大 DevOps 能力

从代码合并到生产上线,从监控告警到应急排障。

// 01

CI/CD 流水线

GitLab CI / Jenkins / ArgoCD 三套主流流水线方案,从代码提交到灰度发布全自动,回滚 30 秒内完成。

GitLab CIArgoCD30s 回滚
// 02

K8s 容器运维

阿里云 ACK、腾讯云 TKE、自建 K8s 全栈支持,集群升级、节点池扩缩、Operator 部署、Helm Chart 维护。

ACK / TKE自建 K8sHelm
// 03

多云资源管理

阿里云 / 腾讯云 / 华为云 / AWS / GCP 多云资源统一管理,IaC 全面 Terraform 化。

5 云TerraformIaC
// 04

监控告警

Prometheus + Grafana + Alertmanager + Loki + Tempo 全栈可观测,多通道告警(钉钉 / 飞书 / 电话)。

PrometheusLoki多通道
// 05

SRE 值守

5×8 业务值守 + 7×24 应急值守,P1 故障 5 分钟接管,按 SLA 兜底服务费。

7×245 分钟响应SLA 兜底
// 06

安全合规

等保 2.0 三级合规建设、漏洞扫描周报、密钥管理(Vault)、镜像安全扫描(Trivy)。

等保 2.0VaultTrivy
ops_metrics

运维数据

99.99%
12 月 SLA
36
托管客户
1234
在管节点
5min
P1 响应
workflow

接管流程

step_01
尽调评估
梳理客户现有架构、监控、告警、故障历史。
step_02
能力补齐
补充监控、CI/CD、备份、灾备等缺失项。
step_03
值守接管
SRE 团队 7×24 接管告警,客户研发解放。
step_04
月度复盘
月报 + 季度演练 + 年度故障复盘 + SLA 兑现。
why_us

为什么选圈田

  • 01
    专人专项不轮岗
    每个客户固定 2 名 SRE 负责,确保对业务足够熟,不会"今天接班今天看代码"。
  • 02
    不绑特定云厂商
    阿里云 / 腾讯云 / 华为云 / AWS / GCP 平等支持,客户用谁我们就管谁。
  • 03
    SLA 99.99% 写入合同
    月度可用率不足按比例退还服务费,年累计赔付上限合同期月费的 30%。
  • 04
    故障复盘公开化
    每次 P1 / P2 故障 48 小时内出 RCA 报告,原因、改进、ETA 全部公开。
# 凌晨 03:12 告警自动处理 [P2] 03:12 - "order-service" 错误率 4.8% [] 03:12 - 自动重启实例 (Pod x2) [] 03:14 - 错误率回落到 0.3% [] 03:15 - SRE 王工已查看 · 标记观察 # 全程客户研发不需起床

研发被运维耗住,业务推不动?

2 个工作日尽调 + 报价,30 天内可接管。SLA 99.99% 兜底。