工作職責
1.設(shè)計并搭建大規(guī)模 K8S 計算集群,保障數(shù)據(jù)、訓練、推理等平臺穩(wěn)定運行。
2.負責 K8S 集群日常運維,包括資源調(diào)度、彈性擴縮容、服務(wù)部署與版本升級。
3.優(yōu)化 K8S 集群性能,解決任務(wù)調(diào)度、彈性容災(zāi)等技術(shù)問題,提升平臺運行效率。
4.監(jiān)控集群狀態(tài),快速定位并處理故障,制定應(yīng)急預案,保障業(yè)務(wù)連續(xù)性。
5.研究業(yè)內(nèi) K8S 運維方案,結(jié)合 AI 平臺需求優(yōu)化運維流程與技術(shù)方案。
任職資格
1.計算機相關(guān)專業(yè)本科及以上學歷,3 年以上 K8S 運維經(jīng)驗,有 AI 平臺運維經(jīng)驗優(yōu)先。
2.精通 K8S 集群架構(gòu)、網(wǎng)絡(luò)、存儲、資源管理,熟練使用 kubectl、Helm 等工具。
3.熟悉 Docker 容器化技術(shù),掌握 Spring Boot、Python 等服務(wù)部署與調(diào)試。
4.熟悉 Jenkins、Argo 等 DevOps 工具鏈,具備自動化運維、CI/CD 流程搭建經(jīng)驗。
5.具備良好的問題分析與解決能力,責任心強,能適應(yīng)高強度運維工作。
6.具備獨立部署redis、rabbitmq、mysql、minio、harbor、es等組件并調(diào)優(yōu)