5g将开启产业互联网变革的新篇章,推动5g融合应用发展是业内共识。gti最新发布的《5g智能化网络白皮书》强调,网络智能化是5g网络高效高质建设部署和运营不可或缺的能力。如何为用户提供更高质量、更有保障的通信服务,成为运营商乃至整个社会信息化发展的重要课题。
5g核心网运维的新挑战
5g核心网(5g core)是电信运营商5g建设的重要组成部分,采用全新技术,在实现网络部署、网络功能、新业务开展的同时,监控保障也面临全新挑战。在4g核心网(epc,evolved packet core)中,网元由专有设备承载,硬件属性较强。而在5g核心网环境中采用基于服务架构(sba,service based architecture),融入云原生、微服务等设计思想, 以软件化,模块化、服务化的方式构建核心网。对于全新核心网的运维保障,面临如下挑战:
网络功能解耦使监控对象数量激增
依据3gpp定义,5g核心网的各网络功能(nf,network function)在功能级别上解耦,拆分出若干个独立的网络功能服务(nfs,network function service),这些网络功能独立运行,提供标准化服务接口,通过相互调用访问实现网络功能。在5g核心网方案中,虚拟化、云原生技术的融入,使通用服务器取代专有硬件设备,与此同时虚拟网元,虚拟机、容器pod的数量飞速增长,每个工作负载同时提供多个ipv4、ipv6工作平面。
相较4g epc,由于众多方面演进叠加在一起,在5g核心网sba架构中虚拟化后的nfs实例数量以2个以上的数量级增长,需要监控的对象数量巨大是5g核心网保障侧第一个挑战。
服务自动化增加了网络追踪的难度
通过网络功能仓储(nrf,nf repository function),5g 核心网的各类网络功能服务得以自动化管理,实现服务的自动发现以及注册、更新、状态检测等,避免服务访问中进行大量手动配置工作;集中控制面可以将大量跨区域的信令交互变成数据中心内部流量,优化信令处理时延;根据业务应用的变化,按需快速扩缩网络功能和服务,提高网络的业务响应速度。自动化管理在生产侧提升了管理效率,同时在核心网保障侧增加了动态性强、难以跟踪的新挑战。
路径优化与交互解耦抬高了监控复杂度
4g核心网的网元之间的通信遵循请求者和响应者的点对点模式,是一种相互耦合的传统模式。在 5g 核心网服务化架构下,各网络功能服务之间可以根据需求按需通信。5g 核心网架构下的网络功能服务间通信机制进一步解耦为生产者和消费者模式,具备灵活可编排、解耦、开放等优点,是 5g 时代迅速满足垂直行业需求的一个重要基础能力。各网络功能在实际应用过程中,避免了不必要的网络中转,但服务间的调用依赖,访问追踪,性能分析,故障定位等也成为运维保障侧的新挑战。
deepflow 5g核心网网络功能服务监控方案实践
deepflow是一款面向5g核心网,基于对服务nfs间的通信访问流量进行获取分析,以保障核心网稳定运行的软件产品。在整体方案中,可按处理逻辑分为流量获取、数据分发传输、诊断分析三大部分,通过流量采集预处理抽象层,提供流量采集及预处理的北向管理接口,使整个监控平台具备可扩展的基础数据获取能力。
通常5g核心网环境中,主要涉及到kvm虚拟机与容器pod的网络流量获取。deepflow 5g核心网网络功能服务监控方案支持ipv4、ipv6协议环境,紧密结合http v2协议,实现服务间关联依赖监控。本文基于运营商实际5gc运行环境,化繁为简并以free5gc环境为基础进行介绍。
free5gc是5g核心网开源软件项目,总体架构基于3gpp标准、遵循sba框架,采用虚拟化方式实现网络功能,可运行5g核心网的标准服务,并且可以模拟相应工作流程。在实际5g环境中,多数厂商已经采用容器技术承载网络功能服务。在本文中,采用虚拟机运行容器,创建kubernetes集群, 搭建5g核心网验证环境,使能各网络功能。通过云杉网络的deepflow平台实现对各网络服务的监控保障。实践过程中部署的组件包括控制器、采集器以及数据节点。
图:5g核心网监控方案
由大到小追踪网络服务
在5g核心网的监控实践中,由大到小,逐级有序地展示服务运行状态及关联关系。通常根据工作流程分为三大范围,较大范围以数据中心所属区域或资源池划分,其次为网络功能或服务类型,比如amf、udm、smf等,最后将集中在it单元,比如容器pod、宿主机、ip等。deepflow平台按照三类范围由大到小的操作划分,为核心网所涉及到的复杂网络提供完整的、逐级的监控跟踪。下图呈现的是各类型网络功能服务运行及调用关系全景视图,将服务接口(sbi,service-based interface)中的网络各功能间的调用通信,以及性能指标进行自动绘制并呈现。
图:功能服务全景图
实践过程中,关注服务间重点指标,包括网络层(吞吐、载荷),传输层(并发连接、tcp建连时延、tcp系统时延,tcp重传、建连失败)应用层(http请求、http时延、http异常),绘制访问调用关系全景视图后,在知识图谱功能支持下,可以迅速关联列举相应的知识维度。
分钟级定位异常边界范围
5g核心网中存在大量的、复杂的nfs间服务调用,具备有效的调用性能跟踪能力尤为重要。
图:服务间访问示例
如上图所示,一个简单的逻辑调用,amf(access and mobility management function)中的nfs调用udm(unified data management)中的nfs获取用户信息,这个过程中,并不是像传统环境中直观简单。在5g现网环境中,普遍涉及宿主机、虚拟机、容器的网络虚拟化实现,以全栈分段来梳理访问调用,是应对新环境运维排障挑战所必须具备的。以全栈视角,展开以上调用,可以剖析nfs发起调用所经过的pod接口、虚拟机接口、宿主机接口乃至网关等链路。
图:服务调用全栈跟踪示意图
全栈跟踪针对云中服务间的调用访问,将虚拟化所实现的逻辑通信进行逐步展开,清晰便捷展示每段的网络状态,性能,结合知识图谱及丰富的指标数据,快速定位性能异常的问题范围边界。以上所述访问为例,如果排查调用延时故障,确定nfs调用服务双端后,展开全栈跟踪,直接定位延时所在的接口。如全栈跟踪示例图中,清晰展示出服务amf服务实例至udm服务实例两端访问延时瓶颈在udm功能侧,且聚焦在其运行所属虚拟机的虚拟网络接口处。而排除udm服务实例的pod网络接口及amf所涵盖的虚拟机、pod等众多接口路径。
图:全栈跟踪示例
在没有deepflow全栈跟踪工具的情况下,排查服务访问调用的性能将是一个头绪纷乱、复杂繁琐且冗长的过程,同时对于一线运维人员要求所掌握的技术栈相对较多、要求综合能力强,很可能耽误宝贵的运维窗口时间。
总结
以上free5gc示例运行在实验室环境,模拟运行了相应的测试用例,实际生产场景较实验室更加环境复杂且规模巨大,势必对运维保障提出更高要求。经过实际环境测试验证,deepflow平台也确实能为5g核心网填补监控保障空白。
帮助5g核心网在基于服务架构中统一采集服务间的网络流量,实现对访问调用的全面性能监控,并提供容器化后的全栈路径跟踪,补齐5g核心网服务监控空白,应对云原生特点,紧密结合5g服务,解决5g核心网生产中遇到的监控、运维、保障等难题。