技能要求:
经验要求:
5-10年经验
工作描述:
项目编号:【43546】
【远程兼职或全职坐班】AWS DevOps 运维工程师 | 实时音视频基础设施 如果有全栈经验也可以全职在杭州萧山上班,交社保
我们是一家做实时音视频社交的公司,产品基于 LiveKit 构建。现寻找一位经验丰富的 AWS 基础设施运维工程师,负责从单机 Docker 向 AWS EKS 生产架构的迁移及长期运维。
岗位职责
基于 Terraform 管理全套 AWS 基础设施(VPC、EC2、EKS、ElastiCache、S3、NLB、Route 53、IAM)
使用 Helm 在 EKS 上部署和维护 LiveKit 集群,配置 HPA 自动扩缩容,保障 UDP 媒体流稳定转发
搭建 CloudWatch + Prometheus + Grafana 监控告警体系,覆盖节点、Pod、Redis、WebRTC 丢包率等核心指标
运维 ElastiCache Redis 集群,保障 LiveKit 房间状态高可用,制定备份与故障恢复方案
配置 AWS NLB(四层)+ Route 53 实现多区域负载均衡与故障转移,优化全球用户接入延迟
维护 S3 存储生命周期策略,管理 LiveKit Egress 录制文件的存储、归档与成本优化
负责 TURN/STUN 服务网络调优,解决 WebRTC 跨网 NAT 穿透与防火墙问题
编写运维文档、Terraform 模块、Runbook,确保基础设施可审计、可回滚
紧急故障响应(P1 故障 2 小时内响应,P2 当天内处理)
技术要求
3 年以上 AWS 生产环境运维经验,精通 EC2、VPC、EKS、S3、ElastiCache、CloudWatch、IAM、Route 53
精通 Kubernetes,熟练使用 Helm、kubectl,有生产环境 EKS 运维及排障经验
熟练使用 Terraform 实践 Infrastructure as Code,能独立编写可复用模块
熟悉 Redis 运维,了解主从、集群模式及持久化策略
熟悉 Linux 网络调优,掌握 TCP/UDP 排查工具(tcpdump、ss、netstat、conntrack)
有监控系统搭建经验(Prometheus + Grafana + CloudWatch Logs/Metrics)
了解 WebRTC 协议栈(ICE/STUN/TURN/SDP),有实时音视频项目运维经验优先
熟悉 Docker、Git,具备 CI/CD(GitHub Actions/GitLab CI)配置能力
加分项
有 LiveKit、Janus、mediasoup 等开源 SFU 实际部署经验
熟悉 AWS 成本优化(Spot Instance、Savings Plans、S3 Intelligent-Tiering)
有 AWS 多区域(Multi-Region)部署与灾备经验
熟悉 cert-manager、ExternalDNS 等 K8s 生态工具
有安全合规经验(IAM 最小权限、MFA、CloudTrail、Secrets Manager)
工作模式
远程兼职,每周 10-20 小时(项目初期可能略多,稳定后以减少)
需保持 IM 在线(飞书/钉钉/Slack),紧急故障 2 小时内响应
初期以基础设施搭建和迁移为主,后期以监控值守、版本升级、故障响应为主
交付标准
提供完整的 Terraform 基础设施代码(模块化、可复用)
提供 K8s Helm values 配置及部署文档
提供监控告警面板(JSON)与告警规则(YAML)
提供运维手册与故障处理 Runbook
薪酬
面议(支持时薪 / 项目制 / 月度固定,根据经验与投入时间匹配)