Azure若何行使机械进修“预知”虚拟机故障?

[好文分享:www.ii77.com]

编者按:云办事的一大优势,是使用户无需担心若何治理硬件资源和处理硬件故障。然而,若是云办事发生了硬件故障,该怎么办?如今,得益于微软亚洲研究院最新磁盘故障展望和节点故障展望的研究功效(论文见文末),Azure可以“预知”云办事中的硬盘故障,提前发出警示,并进行用户可掌握的主动迁徙流程,最大水平地削减硬件故障的影响。

[转载出处:www.ii77.com]


对于运行虚拟机的云办事器来说,硬件故障是一个无法回避的问题。除了硬盘故障,超时、容积巨细、分区和延迟错误,都或者带来文件把持失败、虚拟机未响应等问题,导致云办事显现休止。


而如今,Azure能够“预知”硬件故障的发生,并在维护和更新前,对虚拟机进行可控的主动实时迁徙,使因故障发生导致的停用时间大大缩减,每月可削减约1000小时的停用时间。




Azure若何“预知”硬件故障?



故障展望的难点在于,发生故障的设备越少,故障展望就越难题,因为每一台设备发生故障的概率都很低,是小概率事件。并且过多的误报会使未显现故障的硬件也被停用,从而增加Azure的运营成本。是以,对生产情况中的展望机能有更高的要求。


Azure经由机械进修来展望硬盘和整个集群节点发生故障的或者性,今朝可展望的故障包罗驱动器故障、I / O延迟问题、内存故障和CPU频率问题。


Azure云硬盘错误展望系统(Cloud Disk Error Forecasting System),综合使用尺度硬盘SMART监控数据和系统级事件数据,采用机械进修算法练习展望模型来展望硬盘故障。


Azure云硬盘错误展望系统框架


约有450种分歧的数据或者与硬盘故障相关,但不是所稀有据都能匡助Azure进行错误展望,好比,通电时间(Power-On Hours)对展望的匡助相对较小,但从新分派的分区数量(Reallocated sectors count)络续增加,就表明硬盘有故障。一样来说,在硬盘故障前的15-16天,硬盘错误就起头显现,而且一样在故障前的最后一周,从新分派的分区数量会增加三倍,设备重置次数会增加十倍。


来自分歧制造商的硬盘或者有分歧的故障特征和模式,甚至统一制造商的分歧型号的硬盘也会有所差别。另一方面的差别来自工作负载的强度,这会影响到故障在展望后多快的时间里发生,好比在高强度的工作负载下,显现故障迹象的磁盘或者很快就会发生故障,但在硬盘驱动的工作负载较少的办事器中,同样的硬盘或者仍然能够持续运转几周密几个月。是以,机械进修的练习数据系统必需从分歧类型的义务中采集。


除了云硬盘错误展望系统,一个雷同的机械进修系统能为Azure展望较量节点的故障。两个系统接纳的预警体式都是按硬件故障的或者性巨细从高到低进行排序,而不是直接剖断某个硬件是否会发生故障。这也更相符实际生产情况中故障处理的需要。Azure会住手将新的虚拟机布置在故障或者性最高的系统上,并主动选择最佳节点对正在运行的虚拟机进行实时迁徙,随后住手办事,进行检测。


Scheduled Events:可控的故障迁徙策略

    

Azure将在不影响工作负载的情形下进行实时迁徙,在几分钟内将包罗内存、磁盘状况、收集保持等在内的整个虚拟机复制到新节点,凭据迁徙信息量的分歧,耗时1-30分钟不等。完成后,原始节点和新节点上的虚拟机将同时挂起(suspended),实时迁徙代理会将任何尚未传送的状况信息复制曩昔。停用状况也取决于迁徙的信息量,平日只持续几秒钟。


若是一些工作负载对机能的要求很高,复制过程或者依然会对它发生一些影响。好比,有些应用法式连几秒的暂停也无法许可,有些应用法式则无法进行实时迁徙,好比HPC、内存优化、GPU优化和存储优化等特别的专用机型,或是早期Azure上布置的A系列虚拟机。你或者要进行从新设置(refactor),并用PaaS办事而非虚拟机来处理这部门工作。


在这种情形下,Scheduled Events办事将为用户供应通知,警告硬件或者显现故障,虚拟机将被实时迁徙或进行维护。若是用户使用了对照廉价的低优先级虚拟机,而它将被替代为更高优先级的虚拟机,Scheduled Events也会发出警告。


Scheduled Events将对虚拟机暂停、从新布置、因为低优先级被删除、自行设定的从新启动发出通知。若是虚拟机从新布置,它将至少提前10分钟发出警告,若是虚拟机暂停并从新启动,则至少提前15分钟。而若是是因为故障展望激发的实时迁徙和从新布置,Scheduled Events将提前几天发送通知,同时办事将测验以各类体式延迟故障。


举个例子,展望系统发现一个硬盘的故障概率很高,而且将损坏在该节点上运行的5台虚拟机。Azure在做出展望11分钟后就启动了实时迁徙,让这5台虚拟机的停用时间掌握在0.1-1.6秒之间。随后,Azure团队住手了该节点的办事并进行检测,在压力测试中,磁盘在第一次预警的4小时21分钟后发生了故障。


Scheduled Event的通知内容将包罗展望到故障的时间,以及暂不迁徙虚拟机的时间段(假设硬件在此时代不会发生故障)。若是Azure检测到更多来自该节点的非常旌旗,将会通知或者的暂停、实时迁徙等信息。


在收到故障展望后,用户将有充沛的时间做出回响,包罗搜检虚拟机是否可恢复、移除保持、转移故障、将其从负载均衡器池中剔除,或许做好封闭工作负载的预备工作。在完成预备后,用户能够在Scheduled Event中核准实时迁徙,Azure将尽快进行迁徙,匡助用户解脱机能下降的硬件。即使无法调整虚拟机,也能够经由Scheduled Event放置快照,或削减虚拟机上运行的义务,从而最大水平地免受硬件故障的影响。


相关论文

1.Improving Service Availability of Cloud Systems by Predicting Disk Error. Yong Xu, Kaixin Sui, Randolph Yao, Hongyu Zhang, Qingwei Lin, Yingnong Dang, Peng Li, Keceng Jiang, Wenchi Zhang, Jian-Guang Lou, Murali Chintalapati, Dongmei Zhang  USENIX ATC 2018 | July 2018


长按扫码,查察论文


2.Predicting Node Failure in Cloud Service Systems. Qingwei Lin, Ken Hsieh, Yingnong Dang, Hongyu Zhang, Kaixin Sui, Yong Xu, Jian-Guang Lou, Chenggang Li, Youjiang Wu, Randolph Yao, Murali Chintalapati, Dongmei Zhang   ESEC/FSE 2018 | November 2018


长按扫码,查察论文



介绍阅读

Office 365助力延锋全球化移动平安与协作,实现企业高效运营

趁着假期休闲,微软干货视频充实你的碎片时间

韩语聊天机械人助韩亚航空一路高飞
最新运动

玩转微软市场资讯?用这个就够了!

自媒体 微信号:ii77 扫描二维码关注公众号
爱八卦,爱爆料。

小编推荐

  1. 1 突发!伊朗对以色列发动大规模导弹和无人机袭击

    这是4月13日在以色列特拉维夫拍摄的以色各国防部建筑。新华社本地时间14日,伊朗伊斯兰革命卫队针对其军事动作发布第二份声明。声明透露,因为

  2. 2 伊朗:袭击可被视为已“结束”

    点击上方“CCTV4” 存眷我们!伊朗常驻结合国代表团称伊朗对以色列的袭击可被视为已“竣事”。本地时间4月14日,伊朗常驻结合国代表团在社交媒

  3. 3 刚刚!连发5道预警!江西人注意,别乱溜达!

    今天暴风暴雨又囊括而来一大早 江西省景象台就接连发布四道预警大风黄色预警旌旗宜春、新余两市的部门区域将显现8-10级雷暴大风局地伴有强雷电

  4. 4 知名女演员因这事被气进医院……网友:深有感触

    比来知名童星关凌在社交平台发布了一个视频激发好多网友热议关凌透露,只因为前一天晚上给两娃指点了作文和阅读懂得,究竟晚上睡觉之前就感

  5. 5 万亿零食市场“开卷”,B站up主实探东莞供应链

    ▲点击存眷麻涌镇当局“艳丽麻涌”官方微信可乐2.3元一瓶、矿泉水1.2元一瓶、爽性面0.9元一包……近年来,量贩零食店的显现,为“吃货”们打

  6. 6 便民服务 | 黄龙溪镇:便民有温度,服务“零距离”!

    点击蓝字存眷我们群众事 无小事黄龙溪镇以更贴心更高效的办事体式起劲做大好人民群众“贴心人”切实提拔群众的获得感、幸福感↓↓↓1深化办事

  7. 7 伊朗袭击以色列!最新消息汇总→

    本地时间4月14日,伊朗伊斯兰革命卫队揭橥声明,为了回应以色列的罪过,个中包罗袭击伊朗驻叙利亚使馆领事处并导致多名军事人员灭亡,伊朗伊

  8. 8 知名女演员因这事被气进医院……网友:深有感触!

    比来知名童星关凌在社交平台发布了一个视频激发好多网友热议关凌透露,只因为前一天晚上给两娃指点了作文和阅读懂得,究竟晚上睡觉之前就感

本文内容来自网友供稿,如有信息侵犯了您的权益,请联系反馈核实

Copyright 2024.爱妻自媒体,让大家了解更多图文资讯!