logo of aliyun

阿里云阿里云智能-大模型推理优化专家/高级专家-北京/上海/深圳/杭州

全职社招技术类-开发地点:北京 | 深圳 | 杭州 | 上海状态:招聘

工作描述


任职要求

1. 主导大模型推理全链路优化:从计算图优化、算子融合到显存管理,构建面向Transformer架构的极致优化方案
2. 构建分布式推理引擎:设计模型并行、流水线并行、张量并行混合调度策略,支撑千卡集群的线性扩展能力
3. 计算机体系结构/算法优化双重功底:精通CUDA/Triton编程,能进行kernel级优化;熟悉TVM/MLIR/XLA等编译框架
4. 实战经验:具有LLaMA、GPT、GLM等百亿级模型优化经验,熟悉FlashAttention/PagedAttention等关键技术
5. 全栈优化:掌握从算法改进(MoE/混合专家系统)、框架调优(vLLM/DeepSpeed)到硬件协同设计的完整技术链条
6. 性能调优:能通过nsight systems等工具进行端到端性能分析,具备将理论算力转化为实际吞吐的杀手级能力

工作职责

针对 DeepSeek, 通义,LLaMA 等主流模型通过对模型优化,框架优化,算子优化提升大模型在单机和集群在不同GPU/NPU卡上性能和运行效率
包括英文材料
大模型+
Transformer
推理引擎+
算法+
CUDA+
内核+
GPT+
vLLM+
DeepSpeed+
性能调优
Nsight