腾讯云服务初次揭密:避开40%宕机的身后技术性

云时代到来,云服务变成像水电一样的基础服务。作为云计算的底层承载,服务器的RAS特性(Reliability、Accessibility、Serviceability)决定着云服务的质量,也影响着云上用户业务运行的连续性。然而,服务器难免因发生硬件故障导致宕机。据统计,硬件故障是服务器宕机的重要因素,而内存故障占了硬件故障整体的50%。为了给客户提供安全、稳定的云计算服务,腾讯云联合英特尔共同探索

  云时代来临,云服务器变为像水电工程一样的基础服务。做为云计算技术的最底层承重,网络服务器的RAS特点(Reliability、Accessibility、Serviceability)决策着云服务器的品质,也危害着云端客户业务流程运作的持续性。

  殊不知,网络服务器免不了因产生硬件配置常见故障造成 服务器宕机。据调查,硬件配置常见故障是宕机的关键要素,而内存故障占了硬件配置常见故障总体的50%。

  为了更好地给顾客出示安全性、平稳的云计算技术,腾讯云服务协同intel相互探寻危害宕机的首要条件,首先引入并积极主动健全MCA Recovery技术性,另外根据融合硬件配置品质管理等方式,取得成功避开40%由内存故障造成的宕机安全事故,合理确保云端客户的业务连续性。

  腾讯云服务也是第一家在云计算技术行业规模性产品研发和应用MCA Recovery技术性的云服务提供商。

  内存故障:网络服务器的较大 凶手

  硬件配置常见故障是宕机的关键要素,而内存故障占了硬件配置常见故障总体的50%。假如可以合理处理内存故障造成的宕机难题,宕机状况将可以获得巨大的改进。

  因为运行内存不能改正错误的出現,内存故障只有被降低,不能被清除。因而怎样减少内存故障对服务器宕机的危害、为了确保一切正常运作变成更有使用价值的研究内容,而MCA Recovery技术性则是减少内存故障不良影响的核心技术之一。

  MCA Recovery技术性:内存故障的关键切入点

  MCA Recovery(Machine Check Architecture Recovery)技术性源于二零一零年intel明确提出的硬件配置自查体制。殊不知,因为过去CPU RAS特点的收费标准门坎与小规模纳税人云生产商对服务器宕机的高可容忍,因此业内缺乏对该技术性的深入分析和工程项目实践活动,造成 技术性特性未被最大限度地发掘出来。

  历经多层次的比照检测,腾讯云服务技术工程师发觉:MCA Recovery技术性可以合理减轻不能改正错误的危害,变小内存故障状况下对业务流程的不良影响范畴。在应用MCA Recovery技术性后,产生不能改正错误的网络服务器不容易马上重新启动系统软件,只是标识和传送常见故障数据信息,待顾客依据具体情况开展妥善处理,进而避开不能改正错误可能会导致马上重新启动的难题,更大限度地确保了系统软件的易用性。

  在技术性研究基础上,腾讯云服务促进MCA Recovery技术性的运用落地式,变成第一家规模性产品研发和应用该技术性的公司。相互配合压测、硬件配置品质管理等各类方式,腾讯云服务服务器内存品质获得非常大改进,取得成功降低由内存故障造成的宕机安全事故达40%,用户体验进一步提高。

  MCA Recovery技术性的应用推广

  MCA Recovery技术性协助腾讯云服务能够更好地考虑客户满意度。

  以手机游戏顾客为例子,因为成本费、架构模式等缘故,一部分手机游戏顾客选用数据信息、测算、系统日志所有集中化于同一台网络服务器的集中型布署构架,造成 单机版易用性规定高。腾讯云服务运用MCA Recovery 技术性,创建OS兼容、安全隐患通告、热转移避开、退出检修、再次发布等配套设施步骤,增加设备uptime,完美地考虑客户满意度。

  另外腾讯云开发一套自动化技术注错专用工具,合理检验MCA Recovery步骤开启是不是一切正常。此注错专用工具已变成腾讯官方內部标准,另外也营销推广到服务器厂商,便捷领域初期鉴别有关安全隐患。

  腾讯云服务还与intel及电脑主板生产商密不可分协作,促进领域技术性协作发展。在技术性研究过程中,腾讯云服务与生产商密不可分协作,合理修补好几个最底层固定件难题。另外与intel的协同新项目促进一系列专业知识沉定,如腾讯官方-intel技术白皮书(详细阅读),累积很多的硬件软件知识储备,为顾客出示更安全性、平稳、高效率的云服务器

  intel高級技术主管Niveditha Sundaram表明:“历经很多网上常见故障剖析确诊和彼此通力合作,腾讯云服务取得成功将intel服务平台的MCA Recovery技术性应用布署,并将由内存故障造成 的宕机率大幅度减少了40%,其灵巧高效率的运维管理称得上业内楷模。大家相信彼此协作终将在腾讯官方将来的大数据中心基本建设中问世大量成效,并给最后顾客产生更强的感受。”



文章内容来源于:不明

标题:腾讯云服务初次揭密:避开40%宕机的身后技术性

原创文章,作者:鲁大师seo,如若转载,请注明出处:http://www.luseo.cn/archives/4983.html