12月9日, aws全球机器学习副总裁swami sivasubramanian (简称swami) 在亚马逊re:invent大会上发表机器学习和人工智能主题演讲,展示了aws关于人工智能与机器学习的最新全景蓝图,并宣布了一系列新服务和新功能,让机器学习更易用和拓展到更加广阔的使用者、应用场景和行业。这是亚马逊re:invent大会上的首次机器学习主题演讲。swami主题演讲中表示,“机器学习是我们这一代人能遇到最具颠覆性的技术之一,目前已经有超过10万客户在使用aws的机器学习服务,很多客户已经将机器学习用于其核心业务。”
aws大中华区云服务产品管理总经理顾凡介绍说,“亚马逊利用机器学习技术已经有20多年时间,这是aws机器学习服务的深厚源泉。aws在2016年开始发力,在云上提供机器学习服务。当年只发布了三个服务,2017年开始加速,最近三年,每年新增的服务和功能超过200个,为全球人工智能工作者丰富了他们急需的工具集。”
据德勤发布的《全球人工智能发展白皮书》预测,到2025年,世界人工智能市场规模将超过6万亿美元。
面对数字经济的发展机遇,多个国家和地区已将人工智能列为优先发展的国家战略。
2020年11月21日,国家工业信息安全发展研究中心在《2020人工智能与制造业融合发展白皮书》中指出了目前融合存在的诸多难点,其中人才匮乏问题尤为严重。而人社部凯发官网首页官网的报道中测算,目前我国人工智能人才的缺口超过500万,国内的供求比例为1:10,供需比例严重失衡。
德勤发布的《全球人工智能发展白皮书》指出,在人工智能众多的分支领域中,机器学习是人工智能的核心研究领域之一。包括89%的人工智能专利申请和40%人工智能范围内的相关专利均为机器学习范畴。
aws是云计算的引领者,也是机器学习的翘楚。面对机器学习这样一个充满前途的事业,以及当前严重缺乏人才的处境,aws通过多种方式,采取一系列措施,着重通过技术创新,为机器学习扩圈。
首次推出开箱即用的工业领域机器学习凯发k8官网下载的解决方案
扩圈举措之一,是推出开箱即用的凯发k8官网下载的解决方案。在re:invent大会上,aws发布了五项用于工业领域的机器学习服务,分别是amazon monitron、amazon lookout for equipment、aws panorama一体机、aws panorama sdk和amazon lookout for vision。这是aws首次推出开箱即用的工业领域机器学习凯发k8官网下载的解决方案。
amazon monitron和amazon lookout for equipment通过机器学习支持预测性维护。amazon monitron面向没有建立传感器网络的客户,提供由传感器、网关和机器学习服务组成的端到端机器监控系统,检测异常并预测何时需要维护工业设备。amazon lookout for equipment面向已经拥有传感器、但不希望自己构建机器学习模型的客户,由aws为其构建模型并返回预测结果,检测异常设备行为。
aws panorama通过计算机视觉改善工业运营和工作场所安全。aws panorama一体机是一个硬件设备,将它连接到工业场所的网络中,它就可以自动识别摄像头数据流,与工业摄像头进行交互。aws panorama软件开发套件(sdk),方便工业相机制造商在新相机中嵌入计算机视觉功能。
amazon lookout for vision为工业客户提供高精度、低成本的产品质量异常检测凯发k8官网下载的解决方案。它通过机器学习技术,每小时可以处理数千张图像,发现产品缺陷和异常。客户可以将摄像头图像批量或实时发送到amazon lookout for vision,找出异常,例如机器部件的裂纹、面板上的凹痕、不规则形状或产品上的颜色错误等。
目前已经使用aws工业领域机器学习服务的客户和凯发k8官网下载的合作伙伴包括axis、凌华科技、bp、德勤、fender芬达、ge 医疗和西门子交通等等。
打造包罗万象的工具箱,赋能每一位ai工作者
扩圈举措之二,是打造全面丰富的工具集,用顾凡的话说, right tool for the right job(为每一项工作都提供一个趁手的工具)。aws提供的机器学习工具集包括三个层面。
工具集的底层,面向那些技术能力超强的客户,希望将人工智能和机器学习作为自己的核心竞争力。aws为他们提供强大的算力、全面的算力选择、丰富的机器学习框架选择。aws支持主流的机器学习框架,客户还可以通过容器部署的方式,自带机器学习框架;aws可以提供基于英伟达、英特尔、amd、赛灵思等芯片厂商的最新处理器的强大算力,同时还通过自主设计的处理器,极大地降低机器学习的算力成本。
工具集的中间层,面向那些技术能力较强的客户,他们有大量的数据可以进行机器学习模型训练,有一定的算法人才,不要花精力管理基础设施,专注于自己的应用和业务创新。aws的amazon sagemaker为他们提供了首个全托管的机器学习集成开发环境,并为这个开发环境不断增加新功能,从数据准备、到模型训练、参数调优与模型迭代、到模型部署、模型质量监控,在整个过程中最大限度地提高他们开展机器学习的效率,降低他们开展机器学习的门槛。
工具集的顶层,面向技术能力相对薄弱的客户,他们有一定的数据,但没有算法人才,他们希望在业务场景中直接引入人工智能。aws为他们提供开箱即用的人工智能服务,目前已经涵盖机器视觉、语音文字转换、机器对话、文本处理、电商业务、客服、企业内信息搜索、开发与运维、工业ai等方面。
通过这样一个全面的工具集,aws可以覆盖和赋能所有的人工智能工作者。
拓展到数据库开发者和数据分析师
扩圈举措之三,是将机器学习拓展到数据开发者和数据分析师。数据库开发者、数据分析师这个群体,人数比机器学习开发人员群体大得多,他们没有机器学习的知识和技能,但是不缺少机器学习的想法。于是,aws将机器学习能力跟数据库进行嫁接,让数据库开发者、数据分析师沿用数据库查询的方式,让他们的机器学习想法落地到业务应用中。amazon aurora是aws著名的关系型数据库服务,aws针对aurora推出了新功能amazon aurora ml。数据库开发者发起数据库查询(sql)时,只要选择一个机器学习模型,就会唤醒机器学习服务,aurora ml自动将查询结果交给机器学习模型进行推理,返回结果。例如,要查询一个客户评价是正面还是负面,数据库开发者只管做数据库查询、选择这个模型,返回来的查询结果就会自动附加正面或负面判断。类似地,出海电商想把数据库中的商品信息变成多语种,数据库开发者只管查询商品信息、选择多语种翻译,返回的结果就会自动包含商品信息的多语种翻译。
amazon athena是数据分析师经常用到的服务。通过这项服务,可以直接从amazon s3上的对象文件中,利用sql语句进行数据查询(sql是结构化查询语言,原本用于关系型数据查询,而s3的对象文件不是关系型数据)。aws也推出了新功能amazon athena ml,查询返回的结果也可以自动附带机器学习推理的结果。
amazon redshift是云原生的数据仓库。aws推出的新功能amazon redshift ml,甚至把选择模型这一步省了。举一个例子,电商领域经常会哪些客户有可能流失,这时你可能并没有一个模型来判断什么样特征的客户有可能会流失。通过redshift ml,数据分析师只管sql查询,redshift ml可以把数据导入s3,然后sagemaker的autopilot功能结合。autopilot是一个自动建模的功能。这样的redshift ml可以自动进行数据清洗、模型训练,选择最优的模型进行预测。
amazon neptune是aws的一个图数据库,主要用于知识图谱、身份图谱、欺诈检测、推荐引擎、社交关系、生命科学等场景,用图的方式表示各个数据实体之间的关系,例如,好友关系图。对图数据库,只是表示出数据的相关性显然不够,用户更需要的是,根据这些相关性进行机器学习推理。新功能neptune ml,就是将图数据库和机器学习打通,通过机器学习模型去访图数据库,进行更精准的预测。
amazon quicksight是aws的一个商业智能(bi)服务,可以轻松地调用各种数据进行分析和展现。aws于2020年5月推出了quicksight ml新功能,它也跟sagemaker的autopilot功能进行了结合,数据分析人员可以用它开展欺诈检测、销售预测等工作。
在今年的re:invent大会上,aws推出了更酷的机器学习新功能quicksight q。通过它,可以用自然语言对数据进行提问,获得想要的数据洞察。例如,直接在查询框中输入“我们的同比增长率是多少?”几秒钟之内就可以得到高度准确的答案。如果按以往的方式,需要在模型中预先定义增长率、更新模型、处理数据,可能需要几天甚至几周时间。
aws还推出了amazon lookout for metrics,它利用机器学习技术,通过企业多种数据的比对,检测出数据异常。顾凡举例说,一件商品的售价200元,在某个数据源变成了20元。通过amazon lookout for metrics找出这种异常数据,意义重大。如果是在线销售中出现这样的价格错误,有可能给企业带来巨大的损失。
此外,aws还发布了利用机器学习的运维服务amazon devops guru,它可以帮助应用开发人员自动检测运维操作的问题,给出建议补救措施,提高应用程序可用性。此前,aws已经推出了amazon codeguru,可以让开发人员使用机器学习自动进行代码审核,并且提供指导和建议。
amazon sagemaker再添九项新功能,快上加快,简单再简单
扩圈举措之四,大力发展机器学习的中间力量。如前所述,amazon sagemaker是面向机器学习开发者的一个集成开发环境,是一项全托管的服务。它消除了机器学习过程中每个阶段的挑战,化繁为简,使开发人员和数据科学家能够从根本上更轻松、更快速地构建、训练和部署机器学习模型。amazon sagemaker的功能也在快速迭代中,过去一年就交付了50多项新功能。在今年的re:invent大会上,aws再次发布9项新功能。
(1) data wranger,数据特征提取器。amazon sagemaker data wrangler可以简化机器学习的数据准备工作。机器学习训练中有一个重要的工作,称为特征工程,就是从不同来源、格式多样的数据提取数据,形成规范化的数据字段(也称为特征),作为机器学习模型的输入,这项工作非常耗时。通过data wrangler,客户可以将各种数据存储中的数据一键导入。data wrangler内置了300多个数据转换器,让客户无需编写任何代码,就可以机器学习用到的特征进行规范化、转换和组合。客户可以通过在sagemaker studio(首个用于机器学习的端到端集成开发环境)中查看这些转换,快速预览和检查这些转换是否符合预期。
(2) feature store,数据特征存储库。鉴于有大量的特征需要管理,aws为amazon sagemaker推出了一项新功能,名为feature store。它一个用于更新、检索和共享机器学习特征的专用库。通过data wrangler把特征设计出来以后,可以保存在feature store 中,以供重复使用。一组特征会用于不同的模型,被多个开发人员和数据科学家使用,需要有效地跟踪、管理这些特征,及时更新,保持一致性。模型训练和利用模型进行推理(也就是实际运用模型),对特征的使用场景也不同。在训练过程中,模型可以离线、批量地访问特征,使用时间长。而对于推理,通常只用到特征库的一部分,不过需要实时访问,几毫秒内返回预测结果。因此,如何特征库的管理是一件复杂的事儿,feature store就用于解决这些问题。
(3) pipelines,自动化工作流。跟传统编程一样,编排和自动化可以提高机器学习的效率。amazon sagemaker pipelines是第一个专为机器学习构建的、方便易用的ci/cd(持续集成和持续交付)服务。
(4) clarify,模型偏差检测。通过amazon sagemaker clarify,开发人员可以方便地检测整个机器学习工作流中的统计偏差,为机器学习模型所做的预测做出解释,识别偏差,清晰描述可能的偏差来源及其严重程度,指导开发人员采取措施减小偏差。
(5) deep profiling for amazon sagemaker debugger,对模型训练进行剖析。通过deep profiling,能够自动监控系统资源利用率,例如 gpu、cpu、网络吞吐量和内存 i/o,对训练过程中的资源瓶颈进行告警,让开发者及时调度资源,更快地训练模型。
(6-7) distributed training,大型复杂深度学习模型的分布式训练。aws提供了两种方法,模型训练拆分到几百、几千个cpu上进行。一个是数据并行引擎,对数据集进行拆分。一个是模型并行引擎,自动剖析、识别分割模型的最佳方式,在多个 gpu上高效分割具有几十亿参数的大型复杂模型。通过对训练进行拆分,amazon sagemaker可以将训练大型复杂深度学习模型的速度比当前的方法快两倍。
(8) edge manager,边缘端模型质量监控和管理。amazon sagemaker edge manager 可以帮助开发人员优化、保护、监控和维护部署在边缘设备集群上的机器学习模型。模型部署到边缘设备以后,仍然需要管理和监控模型,确保它们持续以高精度运行。当模型的准确性随着时间的推移而下降时,开发人员可以重新训练模型,不断提高模型的质量。
(9) jumpstart,快捷起步工具。通过amazon sagemaker jumpstart,客户可以快速找到跟自己类似的机器学习场景相关信息。新手开发人员可以从多个完整的凯发k8官网下载的解决方案进行选择,例如欺诈检测、客户流失预测或时序预测,直接部署到自己的amazon sagemaker studio环境中。有一些经验的用户则可以从100多个机器学习模型中选择,快速开始模型构建和训练。
不断丰富的新功能,让amazon sagemaker备受客户欢迎。它推出短短三年时间,已经有几万家客户在使用,包括3m、adp、阿斯利康、avis、拜耳、bundesliga、capital one、cerner、chick-fil-a、convoy、达美乐比萨、富达投资、ge医疗、georgia-pacific、赫斯特、ifood、iheartmedia、摩根大通、intuit、联想、lyft、国家橄榄球联盟、nerdwallet、t-mobile、汤森路透、vanguard等等。
aws的系列扩圈之举,背后是aws对机器学习的雄心。swami说,15年前他研究生毕业,有幸进入aws开始云计算事业。如今可以毫无不夸张地说,云计算释放出巨大的力量,帮助各种创业公司和成熟企业取得了巨大的成功。机器学习目前就处于那样的早期阶段。我们从swami的字里行间可以读出,机器学习就是aws的下一个金矿。