项目编号:【41716】
驻场需求驻场需求驻场需求驻场需求驻场需求驻场需求驻场需求驻场需求驻场需求
昌平沙河驻场 ai运维(大模型经验)
工作内容:
1.AI平台稳定性与性能保障:负责公司AI模型(特别是大型语言模型及其他
深度学习模型)生产环境的7x24高可用保障,包括模型推理服务、训练/微
调集群等。建立针对AI工作负载的专项监控、告警与可观测性体系(如GPU
资源利用率、模型推理延迟、QPS、Token消耗、异常检测等)。主导AI模
型服务相关的线上故障排查,解决包括硬件、驱动、框架、依赖服务在内的
岗位职能说明
复杂问题。
2.AI模型部署与MLOps流程建设:设计并实施高效、自动化的模型部署
(CI/CD)流水线,实现从模型镜像构建、版本管理、灰度发布到一键回滚
的全流程自动化。优化模型的部署架构,支持蓝绿部署、金丝雀发布等策略,
确保模型更新平稳、安全。深入运维至少一种主流国产大模型平台(如华为、
阿里云百炼、智谱GLM-开放平台等),负责其与公司现有技术栈的集成、运维和调优。
3.基础设施优化与成本控制:管理和优化GPU/NPU等异构计算资源池,提高
资源利用率和投资回报率。对AI工作负载进行性能调优,包括模型服务化框
架(如Triton,TGI,vLLM)、容器编排层(K8sDevicePlugin)及硬件驱动
层面。通过资源调度策略、弹性伸缩等手段,有效控制高昂的算力成本。
4.技术前瞻与标准化:研究和引入业界先进的MLOps工具链和最佳实践(如
KubeFlow,MLflow等)。制定AI模型部署、运维的规范和标准,编写技术
文档,赋能AI研发团队。
人员要求:
1.5年以上运维/DevOps/SRE经验,至少包含1年以上AI模型生产
环境部署和运维经验。
2.核心运维能力:精通Linux、网络、容器化(Docker)和编排技术
(Kubernetes),自动化能力(Python/Go/Shell,Terraform/Ansible)扎
实。
3.AI模型部署专长:熟悉主流的深度学习框架(如PyTorch,TensorFlow)及
人员要求其模型格式。拥有丰富的模型服务化(ModelServing)经验,熟悉至少一
种推理服务框架(如NVIDIATriton,TensorFlowServing,TGI,vLLM)。精
通Kubernetes上GPU资源的调度和管理(如DevicePlugin,GPU共享等)。
4.国产大模型平台经验:具备对至少一种国产大模型平台(如文心千帆、阿里
百炼、智谱GLM、Kimi等)的实际运维经验,熟悉其API、管控台、计费
模式和高可用方案。理解其与自有机房或公有云环境的集成方式。
5.监控与排障:有能力构建针对AI服务的可观测性系统,熟练使用Prometheus、Grafana等工具监控GPU、推理延迟等关键指标。
6.加分项:有大规模AI训练集群的运维经验(如使用Ray,KubeflowTrainingOperator)。
7.有模型量化、剪枝、蒸馏等优化技术的实践经验。
8.熟悉AI工作负载的安全最佳实践(SecMLOps)。
9.对主流开源大模型(如Llama系列,Qwen等)的部署和微调有实践经验。