工作職責(zé):
1、負(fù)責(zé)AI平臺開發(fā)建設(shè),基于K8S調(diào)用或二開API,包括標(biāo)注平臺、訓(xùn)練平臺、推理平臺及相關(guān)工具鏈的架構(gòu)設(shè)計(jì)和研發(fā)工作;
2、設(shè)計(jì)高可擴(kuò)展分布式計(jì)算與存儲方案,負(fù)責(zé)性能調(diào)優(yōu)、彈性容災(zāi)及長期運(yùn)維,保障集群的穩(wěn)定性與資源利用率;
3、將平臺和算法框架結(jié)合,通過任務(wù)調(diào)度、彈性容災(zāi)、Prometheus + Grafana + GPU 指標(biāo)監(jiān)控、性能調(diào)優(yōu)等手段,端到端提升算法研發(fā)效率。
4、跟蹤業(yè)界 AI 平臺動(dòng)態(tài),持續(xù)優(yōu)化技術(shù)方案,推動(dòng)功能迭代。
任職資格:
1. 大學(xué)本科及以上學(xué)歷,計(jì)算機(jī)及相關(guān)專業(yè),三年以上系統(tǒng)架構(gòu)設(shè)計(jì)、應(yīng)用和開發(fā)經(jīng)驗(yàn);
2. 掌握J(rèn)ava等常用開發(fā)語言,服務(wù)端開發(fā)的涉及常用工具體系。
3. 熟悉K8S相關(guān)技術(shù),有相關(guān)開發(fā)經(jīng)驗(yàn),有過集群系統(tǒng)開發(fā)、部署和優(yōu)化經(jīng)驗(yàn)優(yōu)先
4. 熟悉軟件開發(fā)流程以及DevOps完整流程,熟悉DevOps相關(guān)系統(tǒng)原理,有相關(guān)工具和使用經(jīng)驗(yàn)、如Jenkins,Argo,Ceph,K8S,Docker,掌握源碼者優(yōu)先;
5. 工作認(rèn)真負(fù)責(zé),具有良好的團(tuán)隊(duì)合作能力、溝通協(xié)調(diào)能力和學(xué)習(xí)能力,能承受一定強(qiáng)度的工作壓力。