职位描述: 我们正在寻找一位经验丰富的分布式深度学习工程师,负责推动前沿的去中心化人工智能和机器学习项目。理想的候选人应具备深厚的深度学习框架、模型训练与优化、容器化及编排技术,以及云计算平台的经验。具有CUDA编程、多GPU通信优化和流批数据处理经验者优先。 职责: - 设计和实施使用分布式深度学习框架(如PyTorch、TensorFlow、Ray等)的大型模型训练,管理和优化模型训练与推理过程,使用Docker进行容器化,利用Kubernetes和Kubeflow进行编排和管理,并在云平台(如AWS、Google Cloud、Azure)上部署和管理深度学习工作负载。 - 应用模型压缩和推理加速技术,以及流批数据推理技术。 - 与团队协作,制定并执行分布式计算和深度学习解决方案的技术战略。
要求: - 深度学习训练框架(如PyTorch、TensorFlow、Ray等)的丰富经验。 - 熟悉模型训练和推理管理与优化工具(如MLflow、Weights & Biases、Optuna等)。 - 精通容器化技术(如Docker)和编排技术(如Kubernetes、Kubeflow)。 - 具有云计算平台(如AWS、Google Cloud、Azure)的使用经验。 - 熟悉模型压缩和推理加速技术。 - 熟悉流批数据推理技术。 - 出色的团队合作和沟通能力。 加分项: - 具有CUDA编程经验。 - 具有多GPU通信优化(如NCCL)经验。 - 具有流批数据处理(如Spark、Flink)经验。
薪资可观,远程工作,团队高速发展