纳斯达克服务器瘫痪?— 关于机房巡检你必须要知道的七件事




2013年,纳斯达克股票交易所服务器瘫痪3个多小时,直接经济损失达上万亿美元;2015年,某国际知名IDC运营商宕机停止所有服务5小时,各大公司损失不计其数…… 如果无法及时发现系统的故障,将会对业务造成难以估量的损失。

在诸多信息技术(IT)部门岗位中,系统运维无疑是最辛苦的。一方面,对于系统可用性要求高的系统需要7*24小时不间断的巡检和监控,通常IT部门都是采用“三班制”的方法才能做到,日益增长人力成本让运维不堪重负。


另一方面,机房中噪音、低温、电磁辐射和潜在有害气体等各种环境因素对人体的健康存在潜在的危害。同时,随时可能发生的系统故障也让运维人员“压力山大”,同样影响着相关人员的心理和生理健康。

近些年,随着人工智能(AI)、云计算、物联网和大数据等相关技术日渐成熟,智能机器人开始走入各行各业。比如,最近两会期间,人民日报等主流媒体已经开始使用“创作机器人,金融行业的业务运营也大量采用机器人技术。

机器人具备全天候7*24小时无间断作业,故障识别精准度高,不易受环境因素影响等诸多特点,已经逐步开始替代运维人员在数据中心和各类机房值班上岗,大大缓解了运维人员面临的各种压力和不利健康的因素。

从国家政策、技术创新、未来趋势、机房环境、人才挑战和降本增效等方面来看,机房无人化正在成为新的技术潮流和趋势,而在其中扮演关键角色的就是未来数据中心和各种机房的标准配置:智能巡检机器人。




[ 一 ] 国家政策

人工智能的发展是时代应运而生的,当前,人工智能已经上升为国家战略,已经成为抢占未来发展先机的重要突破口。我国高度重视人工智能产业,并出台了一系列政策推动其发展。

2015年7月,国务院出台《关于积极推进“互联网+”行动的指导意见》,首次将人工智能纳入重点任务之一,推动中国人工智能步入新阶段。

2015世界机器人大会由中国科学技术协会、工业和信息化部、北京市人民政府主办。12个机器人国际组织,58家国内科研机构参与大会。

习近平总书记致信大会表示祝贺:随着信息化、工业化不断融合,以机器人科技为代表的智能产业蓬勃兴起,成为现时代科技创新的一个重要标志。中国将机器人和智能制造纳入了国家科技创新的优先重点领域。

李克强总理作出批示表示祝贺:中国正在实施创新驱动发展战略,大力推动大众创业、万众创新和“互联网+”、“中国制造2025”,这将有力促进机器人新兴产业的成长,创造世界上最大的机器人市场。

2017年7月,国务院发布《新一代人工智能发展规划》,战略确立了新一代人工智能发展三步走战略目标,将人工智能上升到国家战略层面。《2019年政府工作报告》首提“新基建”,人工智能作为“新基建”七大领域之一受到广泛关注。

2020年8月5日,为加强人工智能领域标准化顶层设计,推动人工智能产业技术研发和标准制定,促进产业健康可持续发展,国家标准委等五部门印发了《国家新一代人工智能标准体系建设指南》。

2021年被认为是AI的普及之年。在“2021中国信通院ICT+深度观察报告会”上,中国信息通信研究院副总工程师王爱华发布报告显示,2020年全球人工智能产业规模1565亿美元,增长率是12%,我国的产业规模大概是3100亿元,同比增长了15%。

由今年两会也可知,智能机器人逐渐走进日常生活,机器人技术已经开始渗透入人类工作的各行各业,机器人主播、机器人记者让本次两会大放异彩,得到了世界的广泛关注。

面对社会科技的快速发展,人才和资源面临着全新变革和需求更新换代!以人工智能为核心的智能机器人成为国家政策支持的重点方向之一。



[ 二 ] 技术创新

当前,世界正处在新科技革命和产业革命的交汇点上。科学技术在广泛交叉和深度融合中不断创新,随着信息化、工业化不断融合,以机器人科技为代表的智能产业蓬勃兴起,成为现代科技创新的一个重要标志。中国将机器人和智能制造纳入了国家科技创新的优先重点领域。

对于CIO(首席信息官)、企业董事长来说,面对业务上层出不穷的新技术、大数据、人工智能、物联网、云计算,究竟如何更好的应用这些技术新平台,如何跟上新技术发展的脚步,是极大的挑战。

在信息化时代,企业早期构建的各类系统一般采用“烟囱式”架构,而传统的运维方式则更多依靠人工巡检,不仅效率低下,同时也不能提前预知系统可能遇到的问题。此时,各系统的管理更偏重于集中式和两地三中心等模式。

随着信息系统建设的发展,分布式、横向扩展、轻量级、去中心化成为首要考虑目标。因此,基于虚拟化和云计算技术的自动化运维工具成为首选。虽然自动化运维在一定程度上提升了系统运维效率,却不能解决业务与IT管理系统之间存在的断层问题,这导致企业在进行数字化转型的过程中,遇到了新的阻力。

通过对大数据技术的应用,能够初步解决IT与业务之间的断层问题,实现面向业务运维的转型。而在业务运维之上加入AI技术则是实现智能运维的基础。智能运维必将成为未来运维的发展趋势。


[ 三 ] 未来趋势

2013年,麦肯锡全球研究所发布的《引领全球经济变革的颠覆性技术》报告中,将机器人列入物联网、云技术、下一代基因技术、3D打印、新材料、可再生能源等12 项颠覆性技术的第五。预计到2025 年,每年将为全球带来 1.7万亿~4.5 万亿美元的经济规模。

根据国际机器人联合会(IFR)的统计报告,工业机器人2013年全球销量约 17.9 万台,需求达到历史的最高点,同比增长 12%,其中在中国销售约3.7万台,销量全球排名第一。而其中中国机器人实现销量 9597台,同比增长 65%。哈尔滨工业大学教授、机器人专家赵杰预测∶ 机器人增长的井喷时代到来了!

正是在这种背景下,2014年7月我国国家领导人习近平总书记 ,在中国科学院、中国工程院两院院士大会讲话中说∶"机器人革命"有望成为"第三次工业革命"的一个切入点和重要增长点,将影响全球制造业格局,而且我国将成为全球最大的机器人市场。他明确提出要求;"我们不仅要把我国机器人水平提高上去,而且要尽可能多地占领市场。

随着IDC运维行业的发展,IDC机房巡检压力也不断变大。服务器数量急剧增长、机房能耗快速攀升、专业运维人员匮乏、运维成本高居不下等众多现象和问题都涌现出来。与之对应的是机房运维工作的高压、高重复度、高强度状态和人才的短缺。

系统崩溃、持续停电、机房着火,这些大型事故虽然并不常见,可一旦发生就是损失数万、甚至数亿。为了保持数据中心正常运转,运维人员往往需要对机房进行7×24小时看护,在高温、高噪音的环境下对成百上千个机柜的指示灯、设备仪表盘等设备情况进行高频巡检。

尽管如此,在机房巡检过程中还是会有很多异常信号和隐患会被疏漏。相关数据显示,70%的机房宕机事故是人为失误造成的。如何通过人工智能、大数据等技术提前预测与发现故障成为新的系统运维技术趋势。


[ 四 ] 机房环境

企业数字化转型的进程中,面临着IT机房环境日趋复杂、应用大量增加、设备种类繁多等情况。Gartner就预测设备和应用程序所产生的数据量正以每年2-3倍的速度增长,且数据类型多样。

另一方面,业务和环境的复杂性也让运维对象、数据与指标覆盖不足,运维数据范围不足造成故障发生前缺少健康度洞察,难以提前预测故障事件。

其次,大量设备与应用,各种各样的监控工具,让监控对象条目过多、告警数量多造成当故障事件发生时,告警泛滥,误报、漏报情况严重,难以实现精准告警。更加致命的是,故障事件发生之后,基于告警的机制很难有效定位问题,缺少调用链信息,难以定位到服务和请求类的根本原因。 

另外,业务依赖关系复杂也造成了整个运维缺少全局运维视图,跨多系统的运维无法联动,单业务系统内部的服务调用请求难以分析。

机房环境的日益复杂,对于依赖传统人工巡检的运维方式提出了巨大挑战,而智能巡检机器人可以更好的应对这些挑战,成为运维人员的强大助手。


[ 五 ] 人才挑战

“数据中心”宕机带来的损失令人胆寒,数据中心的运维成为重中之重。相关数据显示,70%的机房宕机事故是人为失误造成的。

数据中心机房运维主要分为线上、线下两种。在线下运维中,巡检人员需要对机房设备状态、机柜情况、动力环境、消防环境进行每日2-12次的高频巡检。

目前,无论是旧有数据中心还是新建数据中心,对精细化运维的要求越来越高,对传统的人工运维提出了严峻的挑战。 

一方面,我国许多IT基础设施兴起于2000年~2010年阶段,设备老化、故障频发;另一方面,新建数字中心设备在规模和容量上倍增,运维压力也高涨。拿AI基础 架构来说,IDC《2018年中国AI基础架构市场调查报告》显示,2018年中国AI基础架构市场销售额同比增幅高达132%,整体销售额达到13.18亿美元。

再加上一般企业都会特别关注客户体验,而员工体验往往被忽略,但是实际上大部分的企业都面临着招人难的问题,现在的招聘群体主力军基本是90后,他们的突出特点是喜欢创新,不喜欢一成不变。

而数据中心的工作,传统意义上即是机房运维工作,更是不被90后接受,他们认为,这种单一重复的运维工作并不具价值,尤其是机房的环境、噪音、辐射、粉尘、有害气体,也极大影响着工作人员的身心健康。

巡检工作强度高、压力大,工作内容枯燥、重复性高、夜班巡检多,人工运维逐渐成为当前数据中心运维中的不能承受之重,机房运维人员也由此越来越短缺。随着一二线城市的数据中心供不应求,三四线城市新建数据中心数量陡增,专业性人才就更加不足了。



[ 六 ] 降本增效

数据中心的本质是成本中心。成本是绩效考核的重点。尤其是保证一定服务水平的条件下省钱。较大规模的机房,每日需要多次人工巡检,每次巡检都需要耗费不少工时,人工渐渐跟不上规模的增长和状态的快速变化。

巡检工作频次高、重复性强,但传统的人工巡检难以做到精确化、标准化、数字化。而智能巡检机器人,作为专业级服务机器人,正适合完成这类工作,有助于降低巡检工作的人力成本,提升工作效率和管理水平。

传统机房人工运维主要工作集中在三个方面:
一是日常温度、湿度、气体,粉尘、环境异物、调试车摆放情况等环境检查; 
二是服务器、存储及网络设备的状态检查和维修管理;
三是 UPS、电力、空调、冷站等基础运维巡检管理。
目前大量机房的设备都存在一定的问题,其中设备类型多、设备老化、故障频发以及集中爆发,给运维生产带来很大的隐患和安全问题。

机房智能巡检机器人结合多种先进传感器、多种智能识别算法,对机房动力环境、设备运行状态、线路进行全方位精细化感知、巡检,具体包括:机器人远程操作、状态指示灯识别、二维码资产识别、动环数据识别、有害气体识别、声纹识别、人脸识别、异物识别等功能。

可以实现7*24小时的机房无人巡检,准确率达99%以上,实现运维工作的流程化、智能化、无人化,实现数据的深度学习,全面感知业务态势,对问题发现早、定位准、解决快,实现运营的数字化、可视化决策管理,形成有效的运维大数据资产。

也就是说,机房不再需要人工24小时轮岗守卫,更不需要繁琐的表格记录。只需坐在电脑面前,就能掌握机房的实时状况。可实时保障机房稳定安全运行,提高机房和数据中心的智能化管理水平,同时大幅度降低运维成本。


[ 七 ] 蒙帕MOSS机房巡检机器人 “乘势而生”

蒙帕深耕IT运维市场20余年,服务200多家客户,为超过10万平米的数据中心保驾护航。近几年不断有客户提出机房智能巡检机器人和智能运维方面的需求,以减轻IT运维的压力,让客户100%满意是蒙帕能够立足于IT服务专业市场这么多年的根基。

因此蒙帕决定快速响应客户的需求,投入重金和近百人的团队于巡检机器人和智能运维平台的研发工作,从代理、集成、运维服务走向自主产品——“蒙帕AIOps(智能运维管控平台)”和 “蒙帕MOSS(机房智能巡检机器人)”,并拥有了中国日报和上海中铁工程局等多家成功客户案例,开启了蒙帕自研智能运维平台的自主创新之路。








蒙帕AIOps聚焦了六大功能模块:蒙帕MOSS巡检机器人、全面业务监控、统一运维管理、运维大数据、一体化大屏、3D机房。








蒙帕MOSS巡检机器人结合多种先进传感器、多种智能识别算法,对机房动力环境、设备运行状态、线路进行全方位精细化感知、巡检,具体包括:机器人远程操作、状态指示灯识别、二维码资产识别、动环数据识别、有害气体识别、声纹识别、人脸识别、异物识别等功能。





.