在国内政策引导、企业产业智能升级的原生需求和疫情等多重因素作用下,中国的人工智能产业化应用在过去的5年间呈现出无可比拟的增长速度。2020年的中国人工智能软件市场规模已经超过了230亿元人民币,即便在疫情等外部因素考验下,仍旧迎来了平稳的增长。然而随着应用市场的下沉,市场上仍旧缺乏普惠的ai工具,即便在企业拥有相关开发、建模人才的情况下,ai科学家和业务人员之间仍旧存在技术鸿沟。他们习惯使用各自的平台和工具进行数据分析或建模工作,这些数据资产被分散在企业各个角落,造成了模型的重复构建和资源的孤岛林立。而这些人才无法在同一个ai平台上一起协作,发挥出他们各自的优势能力,这是ai落地目前面临最大的挑战。
01
企业ai落地,到底难在哪里
企业在涉及到人工智能业务时,其研发流程需经历从明确业务问题->数据采集及清洗->特征工程->模型训练及打包->模型评估及验证->模型部署及上线->a/b test,以及模型监控和迭代的工作流程。整个链条非常长,容易涉及到多个平台间的切换。在任何环节出现功能短板或缺失,都会影响模型的开发效率和开发质量,或导致模型无法及时在实际业务当中部署应用。
图1:ai模型研发流程
在ai建模全生命周期中,涉及到企业内各类角色的协作,如:行业/领域专家、数据科学家、数据工程师、开发者/devops专家等等。这些角色均有各自擅长的技能,可以为ai建模的某些流程贡献智慧,如行业/领域专家对业务有深入洞见,擅长通过数据构建业务模型;数据科学家擅长数据分析、特征加工、ml模型开发及测试;数据工程师擅长进行数据收集、数据治理和数据加工;开发者/devops专家擅长软件工具及基础设施的构建与维护,帮助数据科学家将ml模型转化为实际生产力。
图2:ai相关人才技能地图(来源:gartner)
这些角色由于专业背景和职能的不同,都习惯使用各自的平台或工具推进工作,在流程衔接方面会存在大量重复性数据、环境适配工作,造成ai模型开发的周期大大拉长,且无法进行数据、模型等资源的统一管理和资产沉淀。
02
星环科技推出sophon mlops——
模型落地和ai协作的加速器
为解决ai落地难的问题,星环科技的ai团队从用户需求端出发,倾力研发了一款基于云原生架构的企业级ai能力运营平台sophon mlops,助推ai模型落地,帮助各种相关角色使用同一个平台进行模型构建和流程紧密协作,并且为ai落地的每一环流程进行了优化,为所有使用者提供便捷的体验。
mlops与devops类似,是机器学习过程管理的实践性方法论。mlops平台为用户串联起了从模型设计、开发到运营的全生命周期,并提供自动化的功能,有效提高各环节的工作效率。
图3:mlops的定义
对于各用户角色而言,都能凭借sophon base基础建模平台及mlops运维平台提供的个性化功能,获得不同工作环节上的效率提升,比如:为业务分析人员提供了低代码功能,封装了200多个算子可供点击使用;为数据科学家提供了高性能的分布式模型开发&训练环境及在线notebook功能,方便其进行数据探索、特征工程及模型构建工作;为数据工程师提供了方便的模型打包、上架和调试功能,方便其快速将模型上架到实际生产环境;为前台业务人员提供了api调用、a/b test及报告生成功能,方便其快速获取结果数据,并及时查看不同模型对业务的实际效果,并可以发送到数据科学家手中,进行后续的模型迭代和调优工作。
功能示例:
1、支持多个模型的复杂推理图构建
sophon mlops支持统一纳管xgboost、mlflow、tensorflow、pytorch、scikit-learn等多种训练框架的模型,以及sophon base中通过可视化建模和编程式建模训练得到的模型。按模型推理逻辑,图形化搭建服务推理图,并统一应用模型文件。
2、快速配置资源参数,支持灰度发布
平台支持快速配置cpu、内存、gpu等服务资源参数,并将推理图打包为服务镜像,发布为在线服务,且可配置服务弹性伸缩策略。服务部署支持灰度发布,可根据实际需要灵活配置流量分配比例。
3、服务上线后的测试
对于已发布上线的模型服务,通过api接口对接上游业务系统数据,实现模型实时预测。
4、服务监控(查看运行状态、访问量、响应时间、访问记录等)
平台支持运维人员统一监控模型运行状态,控制生产环境风险,并多维度评估模型预测效果,为持续迭代模型提供参考。
5、自动生成模型性能评估报告(支持a/b test对比报告)
支持模型性能评估报告查看、一键下载等功能,并支持选择多个模型进行a/b test对比报告快速生成,帮助决策者对模型优劣进行基于量化性能指标的决策。
6、模型服务审计功能
支持以单个服务维度查看的模型服务运行状态的审计功能。
模型资产方面,sophon mlops提供了用户完整的统计大屏,对于现有模型数量、运行状态、服务推理、模型评估、操作审计、节点情况一目了然。企业所有的ai相关的模型资产均可汇聚到mlops进行统一的纳管、运维、监控和应用,真正做到了ai维度上的打通。
图4:mlops用户大屏
云原生方面,sophon mlops基于云原生设计,提供容器云、微服务的架构,方便用户对服务/应用进行自动、快速部署和调度,对集群进行方便的运维和安全管控。
流程管理方面,由于sophon mlops支持从数据集到模型开发、模型训练到模型上线的全过程,所有角色进行的逐一环节操作在平台上均有记录留存。一旦模型上线之后出现问题,可以根据模型服务回溯到模型版本和模型训练的过程到训练数据集,可以实现“发现问题,快速追溯”。
兼容性方面,sophon mlops提供了强大的兼容性和可扩展性,其ai能力在未来会不断延伸。sophon mlops兼容最新的开源算法框架、平台及基础设施,并与tdh、sophon base、slipstream(数据实时接入)、fide(实时智能决策)高度兼容。数据类型方面,除了结构化数据建模之外,还支持图谱分析及计算机视觉等延伸功能。用户无需担心一旦有新的开源计算框架或运行环境出现,现有平台不支持不兼容等问题。
图5:sophon mlops功能架构
sophon mlops打通了ai的全生命周期,为企业的各类用户角色搭建了统一的ai协作平台。对于企业而言,mlops规模化集成管理了多源异构的机器学习模型,并提供高效且保障隐私安全的模型推理、监控预警及性能评估服务;对用户而言,能感受到操作上的快捷,ai应用与部署更是如虎添翼。
未来,mlops将继续迭代更加丰富的功能,赋能企业ai更快、更好地落地。