职位描述
职位描述:
1、设计和构建大规模并行机器学习/深度学习系统,可以完成超大参数规模或数据规模的多机多卡多用户并行训练和便捷化部署;
2、设计和开发高性能(兼顾系统吞吐量和ML性能)的计算消息机制,通信同步机制,存储管理机制,资源调度机制和容错机制;
3、构建易编程,可扩展,自动化的平台能力,并设计完成可视化;
职位要求:
1、精通至少一种深度学习框架(Pytorch/TensorFlow/Caffe/Paddle)的设计原理与实现方式,熟练掌握 C/C++, CUDA, Python;
2、拥有大型系统设计方面五年以上的工作经验, 具备分布式机器学习、分布式系统、容器相关技术研发经验,熟悉分布式机器学习/深度学习中的基本原理,如(数据,模型,流水线)并行机制,梯度的传播与聚集,网络拓扑与同步机制,内存管理与资源调度,容错与评估;
3、了解机器学习的相关模型,包括不限于FC、CNN、RNN、Transformer;
4、具备良好的沟通能力,有强烈的责任心和优秀的团队协作能力。