AI智能运维在5GC SA网络中的应用研究
张勉知等| 邮电设计技术| 2020-11-11
【流媒体网】摘要:5G带来通信网络能力提升的同时,全新的网络形态和网络规模也给运维工作带来了极大的挑战,而变化最大的5G核心网,由传统CT网络演变成NFV+SDN网络,传统的OSS工具已难以支撑。随着大数据和人工智能的发展,采用AI技术实现智能运维成为解决5GC网络监控、隐患发现、故障定位/修复的主要手段。广东联通作为中国联通首批启动大区制5GC的省分,率先开展基于AI算法的5GC智能运维研究,以辅助运维人员实现网络侧的自动驾驶,重点展示AI算法在5GC网络指标异常检测、KPI-告警关联中的应用研究,为全国联通各个大区的智能运维提供经验。

  01 概述

  5G网络正式商用,提供更好的网络和大容量、可靠性、稳定性、灵活性业务。由于5G通信云采用微服务+云化架构,业务能力空前敏捷,但IT+CT的架构带来维护难度提升。传统人工运维模式面临网络监控/管理困难、故障定界定位复杂、运维效率低下、无法有效避免隐患发生等多个难题。

  针对上述运维难点,广东联通聚焦5GC智能运维解决方案的研究,采用智能化手段提高网络自治能力,更及时、准确和自动地发现网络的异常问题。本文重点阐述了基于多种AI算法的5GC告警、性能、配置数据自学习自挖掘,从而实现指标异常检测、KPI-告警关联分析,最终辅助运维人员实现网络侧的自动驾驶。

  02 5G运维痛点

  从网络规模上看,根据全球移动通信协会发布的报告显示,到2025年,全球5G用户规模预计达到13.6亿,其中,中国5G用户总量4.54亿,全球居首。无论从投资端、需求端还是产值来看,5G通信产业将迎来爆发式增长,三大运营商今年早些时候公布的投资计划显示,中国移动、中国联通和中国电信2020年内将共计划建设50万+个5G基站。

  从网络架构上看,5G网络是全面虚拟化、云化的网络,在通用硬件之上的虚拟化层提供了灵活的资源编排和调度能力,为上层应用的部署和功能扩展提供了极大的灵活性。为了支撑这些重要特性的实现,5G网络也引入了更多的网元和接口。

  可以看出,全新的网络形态和网络规模为5G网络运维工作带来了极大的挑战。随着管理对象的日益增多,网络可能产生的故障大幅增加,人工监控手段已无法满足运维需求。近几年随着大数据和人工智能的发展,AI辅助的智能运维成为解决5G网络时代运维工作努力的方向。通过引入AI技术,实现5GC网络黄金指标异常检测、KPI-告警关联,可帮助运维人员及时发现潜在的隐患、规避网络故障的发生,并在故障发生时,快速定界定位,缩短修复时间。

  03 AI技术在5GC智能运维中的应用研究

  3.1 性能指标异常检测

  图1为5G核心网指标异常检测的整体流程,主要分为数据清洗和异常检测两大块。

  数据清洗:输入的指标数据往往存在粒度不一致,数据缺失等问题,为了保障后续算法的可靠性,需要对数据做预处理。

  异常检测:基于数理统计将指标波形做划分,再针对不同波形采取相应的异常点检测方法,保障准确率和实效性。

  图1 5G核心网指标异常检测

  3.1.1 数据清洗

  由于目前是5G建网初期,原始数据存在粒度不一,粒度缺失等数据问题,所以在应用算法之前需要对数据进行有效的清洗预处理,保证数据质量,排除干扰。主要是对输入数据“时间列”和“值列”分别处理的过程,具体流程如图2所示。

  图2 指标数据清洗

  a)时间标准化:将时间列统一转换为“yyyy-mm-dd HH:MM:SS”格式。

  b)时间排序:将输入数据按照时间列从小到大排序。

  c)时间缺失填充:时间缺失判断(相邻两条数据时间列做差值,差值结果不一样,则存在时间缺失);时间缺失是否需要填充,不同异常检测算法要求不同。

  d) 值强制转换:将输入数据值列强制转换为数值型,有缺失或字符的统一转换为NA。

  e) 值缺失填充:是否需要填充,不同异常检测算法要求不同,基于统计的方法可以不用填充,基于时序拟合的算法需要填充;对于无规律的波形,使用前一个非NA值填充;对于周期型的波形,可以使用同时刻的均值或中位数填充;

  f)极值处理:是否需要极值处理,与算法有关,基于统计的方法不需要极值处理步骤,基于时序拟合的算法需要极值处理步骤;极值处理方法可基于IQR方法设置正常值范围[Q1-3*IQR,Q2+3*IQR],该范围之外的分别使用Q1-3*IQR或Q2+3*IQR进行替换。

  3.1.2 异常检测

  常用针对性能指标的异常检测算法主要有3大类:

  a)时序分析类异常检测:通过时间序列分析拟合输入的性能指标时序数据,分析拟合误差的分布,给出置信区间阀值,当实际数据超过阀值时,触发异常告警,传统的算法有ARIMA、 Holt-winter等,基于深度学习的算法有LSTM及其变体、 MTNet等。

  b)假设检验类异常检测:通过时间序列分析拟合输入的性能指标时序数据(可选),对拟合误差做假设检验来判断是否数据存在异常,比如ESD、Seasonal Hybrid ESD (S-H-ESD)等。

  c)机器学习类异常检测:基于异常点检测的机器学习算法来分析数据的空间分布,以此判定是否存在异常点,比如Isolation Forest、one-class SVM等。

  上面的三类方法具有较好的通用性,有现成的算法包,可以快速在新的数据集上验证测试,取得较好的效果,但针对特定场景的优化,满足特定场景的异常检测准确率,需要在一定程度上做算法的改造以及组合。同时上述的三大类方案,在大规模数据场景下的应用,往往资源消耗较大,而且耗时较长。

  针对核心网指标的异常检测,通过对数据特征的分析,采用统计分析的思路提出OCDT算法,在满足准确率的同时,可以很好地保障时效性。算法流程如下:

  a)基于统计分析对时序波形做划分,主要分为阶梯型、周期型和无规律型。

  (a)阶梯型:阶梯型数据特征为连续一段时间内取值相同,通过差分方式判定区分。

  (b)周期型:周期型数据特征为每天数据变化趋势具有较为明显的相似性,通过计算任意相邻2天子序列(每天数据作为一个子序列)的相似度大小,设置相似度阈值范围,实现周期型波形的判定区分。

  (c)无规律型:数据特征为随机变动,不具有规律性,通过排除法(非周期型或阶梯形)判定区分。

  b)针对不同的时序波形,采取对应的异常点检测方案。阶梯型时序采取离群点和波动点检测,周期型时序采取不一致点检测,无规律型采取离群点检测。

  (a)离群点检测:使用IQR和3-相结合的方式。计算Q1分位数、mean均值、Q3分位数和方差sd;设置上限为max(Q3+3*(Q3-Q1),mean+3*sd),下限为max(Q1-3*(Q3-Q1),0);超出上下限范围标记为异常点。

  (b)波动点检测:对任一点x,计算x与之前n个点的平均变化量(n为指定参数),平均变化量 = 。计算所有点的平均变化量Q1、Q3分位数。设置变化量上限=max(Q3+3*(Q3-Q1)),超出上限标记为异常点。

  (c)不一致点检测:将所有数据按分钟分组统计,计算每组数据的计算Q1分位数、mean均值、Q3分位数和方差sd。设置上限为max(Q3+3*(Q3-Q1),mean+3*sd),下限为max(Q1-3*(Q3-Q1),0),超限标记为异常点。

  3.2 KPI-告警关联

  通过AI算法将系统历史告警数据和对应时间内的KPI性能指标异动情况进行关联挖掘,自动发现故障和指标裂化之间的相关性,当实时性能指标出现裂化点时,及时对业务故障进行提前预警。告警关联分析的整体流程主要分为数据特征统计分析和告警关联分析两大块:

  数据特征统计分析:输入指标往往比较多,告警只会和其中个别指标产生关联,为了减少后续算法的噪声干扰,通过数据特征统计分析检测指标和告警之间是否存在关联关系。

  告警关联分析:结合数据的量级和模型的特点,基于机器学习中的XGBoost分类算法挖掘建立筛选后的数据指标和告警之间的关联关系。

  3.2.1 数据特征统计分析

  数据特征分析目的是为了看出各个数据特征与是否发生告警有无关系以及大致判断有什么关系。从两个方面进行,1.秩和检验量化分析;2.特征重要性。

  秩和检验通过将两组数据混合后排序,将每个序列值在序列中的次序称为秩,分别将两组数据的秩相加得到两组数据的秩和,若两组数据同分布则秩和不应过大也不应过小。通过秩和检验来判断告警发生时刻周围数据与未发生告警时刻的数据分布是否相同,取显著性水平为0.05,如果p值小于0.05,则说明故障发生时刻周围数据与未发生故障时刻数据分布不同,即可将这个特征作为判断故障是否发生的特征之一。

  指标重要性根据该特征每次作为分裂点时获得的增益总和除以所有特征的增益总和计算得出。将经过秩和检验筛选后的指标传入XGBoost模型进行初步建模后,输出指标重要性,根据指标重要性选取一定量的指标进行再次建模。

  3.2.2 告警关联性分析算法

  该问题属于多标签问题,即每个样本数据可能对应多个标签,通过对每一个类告警做一个二分类,判断此类告警是否发生,分类方法通过多轮实验对比后选择XGBoost。XGBoost可以自动处理缺失值,且做了底层优化使得运行速度加快,是现在工程化分类问题上使用的主流算法。将数据预处理好后传入XGBoost,运用交叉验证确定其中一些模型参数,最后使用网格搜索进行调优。

  XGboost属于GBDT,是一种以决策树为基学习器的串行集成算法,目标函数同时考虑了损失函数与树的复杂度:

  其中:

  原目标函数经过泰勒公式二阶展开后,求得最优目标函数为:

  每次分裂获得的增益为:

  每次选取的分裂点为增益最大的点,即:

  04 总结

  针对5GC网络运维难题,本文介绍了广东联通基于AI技术的智能运维解决方案,实现性能指标的异常检测及KPI-告警关联分析,为全国联通各个大区的5GC网络运维树立了示范标杆。在性能指标异常检测中,采用统计分析的思路提出OCDT算法,针对不同时序波形采用不同的检测手段,在满足准确率的同时,可以很好的保障时效性。在KPI-告警关联分析中,广东联通对KPI与告警关联预测进行了算法验证,将告警与性能指标关联,通过对性能指标的精准预测,进而提前发现故障隐患,提前告知、提前处置,避免故障发生。


责任编辑:李平

分享到:
版权声明:凡注明来源“流媒体网”的文章,版权均属流媒体网所有,转载需注明出处。非本站出处的文章为转载,观点供业内参考,不代表本站观点。文中图片均来源于网络收集整理,仅供学习交流,版权归原作者所有。如涉及侵权,请及时联系我们删除!