【阿里云】阿里云智能-大模型推理优化专家/高级专家-北京/上海/深圳/杭州

全职社招技术类-开发地点：北京 | 深圳 | 杭州 | 上海状态：招聘

工作描述

任职要求

1. 主导大模型推理全链路优化：从计算图优化、算子融合到显存管理，构建面向Transformer架构的极致优化方案
2. 构建分布式推理引擎：设计模型并行、流水线并行、张量并行混合调度策略，支撑千卡集群的线性扩展能力
3. 计算机体系结构/算法优化双重功底：精通CUDA/Triton编程，能进行kernel级优化；熟悉TVM/MLIR/XLA等编译框架
4. 实战经验：具有LLaMA、GPT、GLM等百亿级模型优化经验，熟悉FlashAttention/PagedAttention等关键技术
5. 全栈优化：掌握从算法改进（MoE/混合专家系统）、框架调优（vLLM/DeepSpeed）到硬件协同设计的完整技术链条
6. 性能调优：能通过nsight systems等工具进行端到端性能分析，具备将理论算力转化为实际吞吐的杀手级能力

工作职责

针对 DeepSeek, 通义，LLaMA 等主流模型通过对模型优化，框架优化，算子优化提升大模型在单机和集群在不同GPU/NPU卡上性能和运行效率

我要申请 ✨AI模拟面试

难度：

包括英文材料

大模型+

Transformer

推理引擎+

算法+

CUDA+

内核+

GPT+

vLLM+

DeepSpeed+

性能调优

Nsight