华为云FusionInsight MRS:千余节点滚动升级业务无中断

作者: 段干杯

更新时间:2022-03-26 14:37:14

3914 阅读

摘要:滚动升级作为大集群数据底座的必备能力,能够完美解决了传统大数据平台操作繁琐、业务停机、升级成本高等问题,实现一个架构的持续演进,业务无中断。

华为开发者大会2021(Cloud)大会期间,由华为技术专家天团打造的《名师大讲堂》系列专题演讲,围绕云原生、大数据、人工智能等话题,探讨技术创新带来的价值,分享创新实践。其中,华为云FusionInsight解决方案架构师许田立,分享了“千级节点的大数据集群如何无业务中断升级”主题。

华为云FusionInsight解决方案架构师许田立演讲照片

数据量激增,可持续发展的数据底座尤为重要

随着5G、IoT技术的飞速发展,数据已成为重要的战略资源。据预测未来4年数据量将激增4倍+,达180ZB,到35年呈50倍增长。同时,数据作为继土地、资本、技术、劳动力的第5种生产要素,已是数字经济发展的重要要素。但相关调查结果显示,企业运营中仅56%的数据被存储,仅32%的数据被利用。为应对呈指数级增长的数据资产,挖掘海量数据价值,政企客户采用大规模数据底座的需求越来越迫切。

众所周知,企业早期业务较小,各业务从数据集成到数据应用,系统自建,烟囱林立,伴随业务飞速发展,数据不统一、数据融合分析难、开发维护成本高等问题日益凸显,烟囱式的数据体系演进达到瓶颈。

为突破以上瓶颈,挖掘数据价值,驱动业务增长,传统烟囱式数据体系向统一数据湖架构演进,实现一致的数据清洁,做到同名同义,统一数据标准;通过一套技术架构减少维护成本;采用乐高积木式的指标体系,提升开发效率;拉通数据实现跨域融合分析,带来更多的业务创新。

立足于长远,大集群的数据湖架构不仅需满足当下,更应具备可持续演进的能力。

从技术角度来看,大数据开源、开放技术仍在蓬勃发展,以前,驾驭大数据“三驾马车”可转遍大数据的池塘,现如今,大数据技术已发展成一片海洋,社区已具有100+开源项目,大数据技术创新进入深水区。现在大数据不仅限于Hadoop生态,已是多种主流数据处理技术的集合,在不同场景有着丰富的组件进行支撑。华为云大数据技术与世界同步,积极拥抱开源,汲取全球顶尖大数据实践经验。

从业务角度来看,大数据平台承载了海量数据各业务分析场景,其中更涉及多个关键业务,如运营商的对内收入稽核、对外广告精准投放,金融领域的反欺诈、精准营销等场景,服务连续性要求高,7*24小时不中断;如何让大数据平台软件保持最新保本,实现最优的平台参数,达到最快的问题解决速度?这些都对平台运维部门提出了极高的要求。

为了保持业务的连续性和技术引领,一个超大规模、高效率、可持续发展的数据底座显得尤为重要,而不中断业务的滚动升级能力则成为其中的必备能力。

滚动升级实现架构平滑演进,业务无中断

华为云FusionInsight MRS云原生数据湖提供超大规模集群,支持单集群2万+节点规模,并可联邦无限扩容,同时,从500+节点集群的标配开始,华为云FusionInsight MRS云原生数据湖已提供滚动升级能力,截止目前升级成功率为100%。

当然,滚动升级的成功并不是一蹴而就的,在其升级过程中也将面临如下挑战:

  • 无处不在的兼容性:HDFS作为一个分布式架构组件,涉及的跨进程的接口众多,在中间状态,涉及到新老版本交互的场景众多,每一种组合都存在兼容性问题;
  • 可靠性:集群规模达到一定数量后,集群升级历时需数天,升级过程中需要应对各种突发事件,例如硬件的磁盘故障、网络拥塞等各种异常场景,面临这些挑战需要确保升级进度不受影响;
  • 业务无中断:大数据平台承载企业多场景应用,升级过程中,关键业务不允许中断。

为了保障大集群升级过程的平滑,华为云FusionInsight MRS云原生数据湖团队提供了升级管理可视化服务工具,可以端到端分步骤的完成滚动升级,实现升级过程中的可视化控制和管理,并应对上述挑战,主要做了如下处理:

  • 在接口中增加版本号,新版本客户端带上版本号标识;服务端提供两种RPC实现入口,在入口处进行消息格式不兼容的预处理,解决接口兼容性问题;面对社区大版本变更导致的不兼容问题,通过多版本并存的方式,解决滚动升级对业务的影响;
  • 为快速处理升级过程中出现的硬件故障,提供了故障节点隔离能力,在故障发生时,可以跳过该节点的升级动作,使得故障处理和升级可以有序进行;
  • 为降低在升级过程中对关键任务SLA的影响,提供了滚动升级暂停的能力,关键作业或者作业高峰时段,无论是同一批次内还是多批次间,都可暂停升级动作,保障关键任务平稳执行。

滚动升级不仅是一个升级动作,更是一个系统工程,华为云FusionInsight MRS云原生数据湖从兼容性、可靠性、工具自动化、保障团队等多方面入手,注重细节,通过滚动升级助力政企客户平台架构平滑演进。

工商银行实现首个金融行业1000+大集群滚动升级成功

工行大数据平台的Hadoop批量集群已超过1000节点,日均处理作业10万+,数据存储数十PB,承载了全行重点批量作业,其中包括反欺诈、精准营销等多个重要业务场景,服务连续性需求较高。而大数据技术迭代快,传统升级方式需断电、重启等操作,升级操作复杂,影响现网业务运行,且大集群升级耗时长,突发故障易中断升级动作。

大数据技术快速发展,为满足业务变化发展需求,工行采用了华为云FusionInsight MRS 滚动升级方案,借助于大数据核心组件的高可用机制, MRS按照依赖层次,多层次并行,在不影响集群整体业务的情况下,一次升级/重启少量节点,依据组件和实例的依赖关系,自动编排升级批次。升级过程中,隔离故障节点,待升级完成后,再进行故障处理。循环滚动,直至集群所有节点升级到新版本。

通过华为云FusionInsight滚动升级能力,实现大集群分批次滚动升级,业务0中断;故障节点隔离功能确保升级动作的稳定运行,实现7*24小时不间断服务;1000+精细化运维指标及可视化操作简化运维,实现一个架构持续演进。

结语

滚动升级作为大集群数据底座的必备能力,完美解决了传统大数据平台操作繁琐、业务停机、升级成本高等问题,实现一个架构的持续演进,业务无中断。同时,华为云FusionInsight MRS云原生数据湖还将持续创新,做大数字世界黑土地,携手800+ISV为客户提供持续演进的湖仓一体解决方案,可以在一个架构上实现离线数据湖、实时数据湖、逻辑数据湖,在千行百业构筑“一企一湖,一城一湖”。

 本文分享自华为云社区《华为云FusionInsight MRS如何实现千余节点滚动升级无业务中断升级》,原文作者:沙漏。

点击关注,第一时间了解华为云新鲜技术~

版权声明:本文著作权归作者【段干杯 】所有,不代表本网站立场。

侵权请联系:root_email@163.com

相关推荐