“amazon丰富的功能、专业的企业支持服务帮助我们快速构建起业界先进的自动驾驶训练系统,将通常需要花费1-2周的模型训练时间缩短至12小时。”
——文远知行数据团队总监 霍达
文远知行weride(以下简称“文远知行”)成立于2017年,是一家由人工智能驱动、以无人驾驶技术为核心的智能出行公司,旨在打造面向中国市场的level 4全自动驾驶系统,为大众提供便捷可靠的新出行服务。
文远知行总部位于广州,在北京、上海、安庆和美国硅谷分别设有运营和研发分部,全球员工达300人,其中70%为研发工程师。2019年,a轮融资由雷诺日产三菱联盟战略领投,是中国率先获得全球汽车制造商领投的l4级自动驾驶初创企业。目前,文远知行拥有超100辆规模的无人驾驶车队,截至2020年7月,自动驾驶总里程超过260万公里,创造了全国首例暴雨路测、无gps信号下穿越1.5公里隧道、首次全对外开放运营robotaxi等纪录。文远知行的目标是打造稳定可靠的无人驾驶系统,在未来三年,逐步实现全无人驾驶试运营,并不断扩大robotaxi的运营范围。
面临的挑战
作为国内知名的l4级自动驾驶出行公司,文远知行拥有业界先进的全栈式软硬件凯发k8官网下载的解决方案,包括高精度地图及定位、感知、规划与控制、仿真、数据以及自有的l4级自动驾驶汽车,其研发和运营每天收集大量的路测数据用于自动驾驶模型训练和仿真。最初文远知行采用自建服务器方式构建it系统,随着研发和运营的快速发展,自动驾驶车辆的数量、行驶里程迅速增加,积累的路测数据越来越多,系统每天处理tb量级的感知数据,需要更加灵活扩展的存储和算力来完成模型训练,并支撑大数据平台。
业务的快速发展对文远知行的it系统提出了更高的要求,主要体现在三个方面:其一是需要大幅度提升系统的可扩展性,能够随着研发规模和运营体量的增长快速部署足量的机器、提供充足的存储空间和算力,实现业务的快速部署;其二是在系统规模不断扩大的情况下如何确保系统的稳定性、可靠性和安全性;其三是如何在保证系统正常运行的情况下降低运维成本。
“文远知行是一家创业公司,人员及it资源有限,我们希望把人力、物力都尽可能投入到核心技术的研发上。”文远知行数据团队总监霍达说。为了应对这些挑战,推动持续的业务创新,文远知行决定采用amazon云服务来部署数据处理平台及ai平台,借助amazon丰富的功能和服务,建立起可快速扩展、安全可靠、易管理的后端处理系统。
为什么选择amazon?
在众多云服务商中,amazon在行业内的口碑及全球卓越的运营经验、广泛的云服务技术栈、专业丰富的企业服务经验是文远知行选择amazon的主要原因。
amazon云服务提供了丰富的功能,可以充分满足文远知行的技术需求。例如,作为自动驾驶领域的创新者,文远知行需要解决的关键问题是必须采集大量的实际路测数据并利用人工智能机器学习技术对这些数据进行存储、处理、分析和训练,这需要大量的存储和算力。amazon simple storage service(amazon s3)、amazon s3 glacier提供了强大的存储能力,可以随时扩展并可依据业务需求构建海量数据分级存储系统。而amazon ec2 p3则提供了云中的高性能计算能力,它可支持高达8个nvidia® v100 tensor core gpu,为机器学习应用提供高达100gbps的网络吞吐量,可以实现最高1 petaflop的混合精度性能,显著加快机器学习工作负载的处理速度,从而使数据科学家和机器学习工程师能够更快地进行迭代、训练更多模型并提高准确性。
“过去我们自己搭建高性能的机器学习系统,不仅需要投入大量的人力,也较难实现灵活扩展,满足业务快速发展的需求;利用amazon ec2 p3,我们可以快速构建分布式的机器学习集群,获得充足的算力,大幅度缩短自动驾驶模型训练的时间。目前业界完成一个训练模型大约需要1-2周,而我们在amazon平台上只需要12小时就能完成。”霍达说。此外,当需要将tb级的海量数据传送到amazon云上时,amazon snowball可以很方便地完成这一任务,而当进行仿真展示需要使用大量算力时,又可以调用amazon ec2 spot实例,在满足系统需求的同时节省成本。
另一方面,amazon凯发官网首页的技术支持团队拥有专业丰富的企业服务经验,客户可以根据实际需求在不同阶段采用不同级别的凯发官网首页的技术支持服务。“虽然我们的技术团队成员对amazon云服务有相当的了解和经验,但amazon企业支持服务对我们的帮助仍然是巨大的。”霍达说。amazon企业支持不仅为文远知行提供全天候的凯发官网首页的技术支持服务,及时解决应用中遇到的问题,而且还在架构设计、机器学习集群搭建、成本控制等方面为文远知行提供帮助,分享amazon在自动驾驶领域的客户最佳实践经验。
获得的成效
2019年初,文远知行开始在amazon云上部署数据处理和机器学习平台。在具体实施中,利用amazon ec2 p3快速构建其分布式的机器学习集群;路测产生的tb量级数据通过amazon snowball传输到amazon云,用于进行模型训练;amazon emr、amazon relational database service(amazon rds)、amazon dynamodb、amazon aurora等服务用于构建数据湖,完成各种数据分析、处理任务;amazon cloudwatch、amazon cloudtrail等服务用于系统运维管理,成功构建起安全、稳定、可灵活扩展的机器学习系统。目前文远知行所使用的amazon云服务主要包括amazon ec2、amazon s3、amazon snowball、amazon elastic container registry(ecr)、amazon emr、amazon rds、amazon dynamodb、amazon aurora、amazon elastic block store(ebs)、amazon cloudwatch、amazon cloudtrail、amazon direct connect、amazon企业支持服务等。
使用amazon云服务给文远知行带来了多方面的好处,主要体现在三个方面:其一是极大地提升了文远知行业务系统的部署效率,新业务部署的时间和响应时间缩短至以周为单位,可以更快地满足技术开发团队的计算需求和存储需求;其二是降低了it资源使用成本和运维成本,系统的总拥有成本(tco)节省了1/3、运维效率提升了50%;其三是提升了系统的整体安全性和可靠性,amazon云服务本身的多区域和多可用区部署保证了系统的整体可用性和数据持久性,而amazon云服务丰富的安全管理功能使文远知行可以方便地构建完善的安全管理体系。
目前,文远知行在amazon云上部署的机器学习系统已经处于业界卓越水平,通常需要花费1-2周才能完成的模型训练在文远知行的新系统上只需12个小时就能实现。在未来,文远知行计划采用更多的amazon云服务来构建新的业务系统,“我们追求效率,选择amazon云服务使我们既能快速完成系统的部署,又能保证系统的稳定性、可靠性和安全性。”霍达说。