基于AI的网络运维方案.docx

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于AI的网络运维方案前言感谢高效运维社区提供这样的平台,我曾经是一名网络工程师,经历了360的架构变革过程,我个人的技术转型开始更专注网络的监控、自动化运维、网络可视化和AI应用上。我今天的分享主要有下面四个部分:1 项目背景2 时序序列算法3 机器学习4 当下与未来一、项目背景聚焦网络的项目,这个项目是如何在DC中ISP出口发现流量异常,通过流量异常能自动发现,自动定位,最后找出哪些业务,通知业务的过程。我们公司的业务拓展到搜索、智能硬件、手机、行车记录仪、儿童手表、小水滴,也出了扫地机器人,也有360云,虽然公司没有BAT体量那么大,但业务方向麻雀虽小五脏俱全,也积累了很多云方面的经验,公司还有一些在娱乐方面的业务。OUR OPS ,这是我们2017年底的数据:PC端的月活5.15亿用户,移动端月活3.5亿用户,加起来有8.65亿的月活用户体量。运维数据中心在大陆有120个,香港1个,洛杉矶1个,运维ISP带宽达到3.5T的规模。面对这样大规模的网络情况,我们对业务中断零容忍,要洞察网络中的任何异常。虽然业务会切换,但对于某个用户体验上会有一定的下降,我们希望能实时的知道现在网络中DC的出口,流量上有没有异常?出现了什么样的异常,并第一时间进行响应和修复?这是我们DC流量出口图,整体上看有早晚高峰的趋势,放大看有一些上下的波动,而且波动比较频繁,局部再放大看没有什么太大的规律。DC不是一个单独的业务,它是综合性的,很多业务都在流量出口上跑,带来的问题是一个告警出来,不知道是哪个业务出现的异常。对于我们来讲可能是一个黑盒子,哪些波动算异常?异常是哪些业务造成的?打开这个黑盒子,从异常的定义到发现,再到定位业务给网络运维人员带来了一定的挑战。这里面提到定位到业务,如果你最后的定位找不到哪个业务,你告诉人家也是没意义的,工程师大半夜起来说我要去看这是谁的业务,给业务打电话,说我今天晚上有一个APP发布,流量高一下是正常的。通过定位是什么类型的业务,是不是应不应该告知这个业务的运维负责人?如果没有定位是什么业务,很可能前面做的很多工作是没有意义的,网络监控也用了一些传统的,传统的监控都是对于流量固定阈值类的监控,固定阈值内的波动异常根本无法发现,如果阈值设置太低误告警量就比较大了。去年的时候我们为了做异常检测和流量预测,做了大胆的尝试,360所有的网络算下来有几十万个Port,我们把所有的流量数据都做了时序化的存储。每个Port存储的时候,抽取了几十维以上的数据特征,要知道这个Port是哪台服务器,是哪个域名对应哪个业务负责人,属于哪个地市、哪个区域,因此我们打了很多标签,有了这些时序化的数据才有了后面我们进行异常检测与分析的前提。二、时序序列算法拿到数据以后,我们可以用时序序列算法和机器学习的手段对数据进行分析,在处理数据前,我们先要做数据平稳性验证,我们有一些平稳性不到位的数据,我们会做一些处理比如差分。原始数据进行一阶拆分,可以看到基本上是0上下进行浮动的区间,再计算自相关系数,在正负0.2的范围,再看一下分布情况是不是符合正态分布,经过分析发现大部分的数据还是平稳的。2.1 3-sigma通过校验的数据、平稳的数据我们可以应用一些算法,大家一看这是正态分布的图,横轴代表了数据分布的情况,每个格子代表标准差的范围,从图上可以看出,只有百分之零点几的数据在3倍标准差以外,那么得到一个当前的数据以后,用这个数据来判断一下,如果超出了均值的3倍标准差以上的范围视为异常。2.2 EWMA指数加权移动平均EWMA这个算法中认为历史数据对当前的数据是有一定影响的,历史数据影响大小反映在权重上,该算法引入了参数λ,当λ在0和1之间,λ越大,当前的权重越大,前面时刻就越小。我们在实际的流量图中发现,确实是时间越近的数据越能表现出数据近期的特征,因为我们采用以天为单位的,每15分钟一个时间窗口进行7天的ewma计算,计算出一个趋势的ewma曲线,以曲线最后一个值,也是最新的值来替代均值,再做上面的3sigma的计算比较,这样超出了则视为异常。这个算法考虑到了历史同期的数据对当前数据的影响。在数据中心流量图这块选两个时间,t时刻和t-1时刻,再取两个时间窗口,分别取均值,用后一个窗口比前一个窗口再比绝对值再乘百分之百,就是波动的比例。方法二采用时间窗口可以有效吸收一定的瞬时波动,也牺牲了敏感性。2.3 动态阈值如上图有一个正常的区间,两侧异常的区间,把14天的历史数据倒数第二小的乘以60%,倒数第二个大的乘以1.2就认为它是异常,看起来缺点很大,虽然实现了阈值的动态,经过几次波动以后会发现阈值拉高或是降低了。2.4 小流量监控优化这是我们针对实际业务做的优化算法,应对一些小流量时的处理。X轴是时间,Y轴是大小,大小的单位是1兆到9兆,从1个G

您可能关注的文档

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档