logo of xiaohongshu

小红书大模型训练框架研发工程师/专家

全职社招引擎地点:上海 | 北京状态:招聘

工作描述


任职要求

任职资格:
1、至少熟练掌握Linux环境下 C/C++Python语言之一,具备扎实的数据结构算法基本功,擅长并行程序开发;
2、了解至少一种主流的深度学习框架(PyTorch/PaddlePaddle/TensorFlow等)的内部原理与实现,具备直接开发或二次开发经验;
3、对Megatron-LM/DeepSpeed等分布式框架及LLaMA-Factory/XTuner大模型微调工具库有一定了解或相关开发经验;
4、具备模型训练调优分析经验,能够借助Nsightnvprof等工具分析发现模型训练性能瓶颈,并进行针对性优化;
5、有良好的沟通表达及团队协作能力,有强烈的责任心和使命感。
加分项:
1、熟悉至少一种经典深度学习模型及其应用场景;
2、熟悉DP/TP/PP/ZeRO等分布式训练策略原理;
3、了解并行计算、网络通信、系统优化和集群硬件架构等相关知识;
3、熟悉NCCL/RDMA/IB/RoCE相关知识;
4、有高性能CUDAKernel相关研发经验;
5、有大模型训练调优分析经验。

工作职责

1、参与/负责设计实现深度学习训练框架, 包括高效的Dataloader、训练及微调工具链等AI基础设施,支持业务训练提效;
2、与公司各算法部门深度合作,参与/负责大语言模型、多模态大模型、计算机视觉、语音、自然语言处理等业务训练任务的优化提效;
3、分析各业务GPU利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。
包括英文材料
Linux+
C+
C+++
Python+
数据结构+
算法+
深度学习+
PyTorch+
TensorFlow+
Megatron+
DeepSpeed+
大模型+
性能调优
CUDA+
PaddlePaddle
XTuner
Nsight
NVIDIA Visual Profiler