职位描述
该职位还未进行加V认证,请仔细了解后再进行投递!
工作职责:
1、负责智算平台业务开发,实现大模型的数据准备、数据处理、模型定义、模型训练、模型评估等过程;
2、负责分布式训练编排、断点续训、推理加速等面向大规模训练推理场景的能力实现;
3、负责开源、自有大模型基于不同芯片、不同组网、不同规模场景下的的适配、调优等过程的支撑和专家服务;
4、开发模型一键迁移等工具,适配不同生态;
5、开发推理加速等工具,为不同模型适配云、边、端等不同场景提供加速能力。
任职资格:
1、硕士及以上学历,计算机相关专业,3年以上相关工作经验;
2、熟练C 、Python编程语言;熟悉常用的Pytorch/Tensorflow/PaddlePaddle/MindSpore等深度学习算法,掌握Deepspeed/Megatron等分布式训练框架;
3、具备超大规模(千卡及以上)集群进行大模型(100B )预训练、微调、推理加速经验者优先;
4、具备国产化AI芯片开发经验者优先;
5、熟悉主流的容器技术,对K8s扩展开发熟悉者优先;
6、具有较强的架构设计能力,能够独立设计复杂分布式系统,有架构设计经验者优先;
7、有优秀的英文学术论文写作能力,在英文期刊和学术顶会上发表过学术论文者优先。
1、负责智算平台业务开发,实现大模型的数据准备、数据处理、模型定义、模型训练、模型评估等过程;
2、负责分布式训练编排、断点续训、推理加速等面向大规模训练推理场景的能力实现;
3、负责开源、自有大模型基于不同芯片、不同组网、不同规模场景下的的适配、调优等过程的支撑和专家服务;
4、开发模型一键迁移等工具,适配不同生态;
5、开发推理加速等工具,为不同模型适配云、边、端等不同场景提供加速能力。
任职资格:
1、硕士及以上学历,计算机相关专业,3年以上相关工作经验;
2、熟练C 、Python编程语言;熟悉常用的Pytorch/Tensorflow/PaddlePaddle/MindSpore等深度学习算法,掌握Deepspeed/Megatron等分布式训练框架;
3、具备超大规模(千卡及以上)集群进行大模型(100B )预训练、微调、推理加速经验者优先;
4、具备国产化AI芯片开发经验者优先;
5、熟悉主流的容器技术,对K8s扩展开发熟悉者优先;
6、具有较强的架构设计能力,能够独立设计复杂分布式系统,有架构设计经验者优先;
7、有优秀的英文学术论文写作能力,在英文期刊和学术顶会上发表过学术论文者优先。
工作地点
地址:苏州虎丘区苏州市高新区昆仑山路58号
![](http://img.jrzp.com/jrzpfile/rcw/SearchJob/images/jg.png)
![](https://img.jrzp.com/images_server/comm/nan.png)
职位发布者
刘女士/..HR
中移(苏州)软件技术有限公司
![](http://img.jrzp.com/jrzpfile/provincercw/images/sfrz_yrz.png)
-
通信/电信/网络设备/增值服务
-
500-999人
-
国有企业
-
虎丘区科灵路78号