【小红书】大模型训练框架研发工程师/专家

全职社招引擎地点：上海 | 北京状态：招聘

工作描述

任职要求

任职资格：
1、至少熟练掌握Linux环境下 C/C++、Python语言之一，具备扎实的数据结构和算法基本功，擅长并行程序开发；
2、了解至少一种主流的深度学习框架(PyTorch/PaddlePaddle/TensorFlow等)的内部原理与实现，具备直接开发或二次开发经验；
3、对Megatron-LM/DeepSpeed等分布式框架及LLaMA-Factory/XTuner等大模型微调工具库有一定了解或相关开发经验；
4、具备模型训练调优分析经验，能够借助Nsight、nvprof等工具分析发现模型训练性能瓶颈，并进行针对性优化；
5、有良好的沟通表达及团队协作能力，有强烈的责任心和使命感。
加分项：
1、熟悉至少一种经典深度学习模型及其应用场景；
2、熟悉DP/TP/PP/ZeRO等分布式训练策略原理；
3、了解并行计算、网络通信、系统优化和集群硬件架构等相关知识；
3、熟悉NCCL/RDMA/IB/RoCE相关知识；
4、有高性能CUDAKernel相关研发经验；
5、有大模型训练调优分析经验。

工作职责

1、参与/负责设计实现深度学习训练框架, 包括高效的Dataloader、训练及微调工具链等AI基础设施，支持业务训练提效；
2、与公司各算法部门深度合作，参与/负责大语言模型、多模态大模型、计算机视觉、语音、自然语言处理等业务训练任务的优化提效；
3、分析各业务GPU利用率与饱和度等指标，结合业务场景持续优化训练框架能力，提升框架领先性。

我要申请 ✨AI模拟面试

难度：

包括英文材料

Linux+

C+

C+++

Python+

数据结构+

算法+

深度学习+

PyTorch+

TensorFlow+

Megatron+

DeepSpeed+

大模型+

性能调优

CUDA+

PaddlePaddle

XTuner

Nsight

NVIDIA Visual Profiler