大模型研發工程師
1.2-1.8萬元/月
投遞簡歷
湖北-武漢-武昌區
3-5年
Golang · Java · Python
2026-05-09 14:33:51 更新
被瀏覽:673 次
浩鯨云計算科技股份有限公司
最近在線時間:2026-05-09 14:33:51
電話:185********
地址:南京市雨花臺區安德門大街50號B座6樓
職位描述
崗位職責
1、搭建AI運維平臺的核心架構,支持大模型訓練與推理任務的資源調度及性能監控
2、基于Genkit框架研發AI工作流引擎,融合RAG增強能力與多模態數據處理功能
3、設計可觀測性數據采集方案,集成OpenTelemetry實現對LLM推理過程的多維度指標追蹤
4、優化分布式任務間的通信機制,保障千卡規模集群的加速比不低于90%
5、開發智能故障預測組件,利用時序數據分析技術提前識別硬件異常風險
6、構建高效對接矢量數據庫(如Pinecone等)的交互層,滿足知識庫實時檢索需求
崗位要求
1、具備3年以上Go/Python開發經驗,掌握Beego/Gin等框架的源碼級定制與擴展
2、深入理解微服務治理機制,擁有生產環境中Kubernetes集群的實際運維經驗
3、熟悉Genkit/Firebase等AI框架的集成開發,了解Dotprompt模板的設計規范
4、有AI系統可觀測性建設經驗,熟練運用Prometheus與AlertManager構建監控告警體系
5、掌握大模型訓練技術棧(如PyTorch分布式訓練),具備通信同步性能調優能力
6、理解向量數據庫底層原理,具備RAG場景下的工程落地實踐經驗
優先條件
1、參與過LLM訓練集群運維系統的開發工作(如資源彈性調度、故障自愈等功能)
2、熟悉GPU相關監控指標(如顯存占用率、SM利用率等)
3、具備AI工作流可視化編排工具的研發背景
4、了解LangChain等大模型應用開發框架的監控集成方式
求職提醒:求職過程請勿繳納費用,謹防詐騙!若信息不實請舉報。
該公司的其他職位
您可能感興趣的職位
搜索更多相似職位 >
推薦企業
職位專題
微信求職找工作
手機掃一掃
隨時隨地找工作