导语:今年是华为存储业务第十八年,这十八年来风雨兼程,从筚路蓝缕到星辰大海,华为存储见证了中国存储产业从无到有、从弱到强的发展全过程。
本文详细回忆了华为存储十八年走过的风雨历程:艰难曲折的成长过程、平凡可敬的奋斗者、扭转乾坤的重要时刻、激动人心的产品技术……
由于篇幅较长,特划分为十个小节,采用连载的形式发布,具体章节如下:
下面让我们正式重温华为存储这段丝路蓝缕、以启山林的奋斗历程。
这是一个颇为励志的成长故事。从三五个人的小团队,到如今几千人的团队规模;从一台预研机产品,到如今全面布局的存储产品线;从起步阶段多年的净投入,到如今连续八个季度全球全闪存增速第一;从过去的默默无闻,到如今Gartner魔力四象限领导者的常客……
做到这些,华为存储花了十八年。
十八年风雨历程,华为存储从蹒跚学步的孩童,摸着河岸的石头艰难前行,到仗剑走天涯、勇闯天下的少年,一路艰辛却也收获满满。今年是华为存储十八年,犹如一场成人礼,它既是致敬自己过去奋斗的青春,也意味着未来要肩负起更大的责任。
现在让我们重温历史,感受存储产业奋斗者的温度。
在科技领域,任何业务从0到1的过程都注定是艰难无比的,华为存储也不例外。
华为进入到存储领域纯属偶然,2001年互联网科技泡沫破裂之后,几乎波及到所有科技公司,华为亦不能幸免。
置之死地而后生,华为当时认为只做通信产品未来会面临很大的风险,需要积极寻找新的产业机会点。于是,华为商业网络部悄然成立,存储恰恰是其中一个新业务。“当时有几十个新业务,存储是到现在依然活着的三个业务之一。”华为存储资深专家张国彬如是说。
张国彬2002年清华毕业后进入华为,恰好分配到存储研发团队,从此开启了与存储近二十年的缘分,见证了华为存储从无到有,从追赶到逐步超越的全过程。
“公司是2002年正式对存储业务进行投入的。当时,存储产业的确是一个潜力无比巨大的朝阳产业。不过,公司刚开始比较谨慎,当时团队加起来也就十来个人”,张国彬回忆道,“华为存储团队首先需要证明有没有能力把存储这件事情干成。”
彼时的全球存储产业正处于高速发展的阶段,北美互联网四骑士之一的存储公司EMC因为在911事件中帮助摩根斯坦利24小时恢复全部业务而名声大噪,全球存储工业也正式开启黄金时代。EMC在随后短短几年之内完成了对Data General、Legato、Documentum、Avamar、VMware等一系列的收购,迅速完成了从高端存储厂商到存储巨头的角色转换,并开启了长达十五年的存储霸主生涯。
不过,谁能想到此时处于襁褓之中的华为存储,会在十余年之后的中国市场实现对EMC的超越。
没人、没枪,但是又必须在一年之内把预研的产品研发出来,这就是华为存储团队当时所面临的困难局面。为此,华为存储率先想到的思路是与高校科研机构合作。于是,华为存储与华中理工大学(之后改名为华中科技大学)谢长生教授团队进行合作,开始基于标准服务器+商用FC卡+开源RAID代码+Cache/SCSI组件打造预研的存储系统。
“经过一年的努力,存储原型机终于研发成功,将FC环境的I/O跑通。”张国彬介绍,“后来通过了管理层的验收,华为存储在2003年也顺理成章地正式启动研发。”
借助开源+创新的力量,华为存储第一次证明了自己有能力活下去。不过,接下来还有更多意想不到的困难等待着华为。
在这个世界上,成功从来没有捷径可走,因为世上本来就没有捷径,科技领域尤甚。
正式开启研发的华为存储,马上面临着一道选择题:走开源路线还是走创新路线从头开始。
为此,华为存储团队内部发生了激烈的讨论。采用开源路线,意味着可以加速产品研发成功的速度,这对于初涉存储领域的华为而言,不失为一条“捷径”,但开源也普遍存在着代码与功能相对简单、效率较低、Bug较多等情况;而从一开始就走创新路线的话,意味着需要保持持续投入,对时间和成本上是一场考验。
“从长远来看,选择开源在未来会带来更多风险。”张国彬解释道,“经过充分论证和权衡,团队最后一致决定宁愿花费数年时间,也要为客户、自己奠定坚实的基础。”这个决定对华为存储后来的研发体系打造、平台级研发策略有着决定性的影响,也是华为存储后续能够实现持续突破的关键。
不过一年下来,研发团队发现这条路远没想象中那么容易,颇有“一入存储深似海”的感觉。
“干了一年发现不对劲,存储对于研发投入实在太大了。”张国彬如是说,“当时光企业级硬盘的价格就非常昂贵,加上人力成本也较高。”实际上,企业级存储的技术门槛极高,作为企业数据的最后归属地,企业级存储产品对于可靠性以及数据一致性有着极高的要求,这也直接决定了存储研发需要高投入。
面临着如此高昂的成本,华为也开始有一些犹豫。到底还要不要坚持投入?如果坚持下去,还需要持续高投入多久才能做出有市场竞争力的产品?做出产品之后,留给华为的市场窗口还有多大?
2004年,华为认为咬紧牙关也要上,但是需要灵活的方法去更加快速地了解市场变化和用户需求,进而加速存储产品的研发。为此,华为决定开始采用跟国外领先存储厂商合作的方式,一方面满足了内部业务需求,另外则可以通过成熟产品了解到用户的实际需求。
之后,操作系统内存管理、消息通信、各种存储协议、Cache、RAID软件、集群管理、配置运维……团队们把一个个功能都给实现了。在完成单控制器产品之后,华为存储研发团队又开始着手实现双控存储系统的研发。
在当时,从单控制器存储到双控制器存储意味着研发能力有着本质的飞跃,对于存储架构设计、软件研发等都有着极高的要求。单控制器存储一旦控制器出现某个问题,将会导致整个存储的故障,这无疑会给用户业务带来致命的影响;而双控制器则相当于给存储买了一份保险,一个控制器出现故障,另一个控制器立马跟上,确保客户业务不会出现中断。
到了2005年,华为花费三年多时间基本完成了对于双控存储系统的研发工作,这也意味着华为存储研发实现了阶段性的胜利。
就在此时,一次良机又出现在华为存储面前,它有胆量去接受它么?
2006年,华为正式上市了F800存储。此时,华为开始考虑大规模进入到存储产业之中。这时,华为又面临着选择:第一是自己完全做,无论是研发、市场、渠道、服务都是自己来;第二是选择与合作伙伴一起。
这一次,华为选择了后者。
2005年,存储与安全巨头赛门铁克抛来橄榄枝,华为与赛门铁克有了第一次接触。经过不断的接触与谈判,华为与赛门铁克在2006年正式开始运作合资公司--华为赛门铁克(以下简称:华赛):华为出人和研发,赛门铁克出资,主攻存储与安全业务。
采用独立合资公司的方式在当时对双方都有最大利益,华为获得了充足的资金,可以持续加大对存储研发的投入,打造出更具市场竞争力的产品;赛门铁克则规避了自己从头开始干的风险。
经过近两年的筹备,华赛公司在2008年正式对外挂牌成立,存储团队规模达到了200人左右。华为存储此时犹如一个独自闯荡江湖的少年,怀揣远大梦想,却也心存忐忑。
2008年是存储产业标志性的一年,存储市场孕育着巨大变革,高端存储创新架构、重复数据删除与压缩技术、闪存技术、集群文件技术……几乎所有存储细分领域都涌现出一大批具有创新精神的创业公司,存储产业的创新可谓是百花齐放。
“合资公司给了华为存储独立成长的机会。”张国彬如是说。
华赛犹如一个奔跑的少年,脱离了华为体系,运转效率、决策效率就像创业公司那样迅速,积极参与到存储的创新之中。2009年华赛就开发出了第一款SSD,要知道SSD在高端存储中首次采用也仅仅是在2008年。
不仅如此,华赛作为一家独立的合资公司,开始走出去、引进来,在全球范围招募了大量优秀人才,从而奠定了华为存储全球研发体系的基础。通过不断见世面和引进存储大咖,华为存储整体人才体系的视野和思路得到了大幅开拓。
“赛门铁克并没有为华赛注入一行代码。华赛没有采用赛门铁克任何技术,但是研发团队与赛门铁克存储专家们交流的确是受益匪浅。”张国彬澄清道。
不仅仅在研发体系、研发思路上突飞猛进,独立运作的华赛意味着没有大公司的市场和销售资源可用,必须自己建立专业的销售与市场团队,勇敢走出去见客户、啃单子。张国彬回忆道,那几年的独立运营,的确给了销售与市场团队很大锻炼,政府、金融、运营商、大企业的头部客户都要挨个啃下来。“2009年,华赛存储产品就用在了国有大银行的影像归档上,并且在各个行业都开始取得突破。”
然而,成长的道路从来没有一帆风顺。人们常说,成长其实就是一种刻骨铭心的蜕变。华赛这位奔跑的存储少年,一样也有摔得刻骨铭心的时刻。
2009年,随着华赛产品在多个行业用户中得到使用,一些问题也开始接踵而至:告警器声音与旋转磁盘声音形成共振,造成硬盘批量次故障;空气污染、环境中的硫化物腐蚀硬盘,造成硬盘变慢;控制器短路;甚至传说中宇宙射线引起内存Bit位翻转导致数据不一致的情况也出现了。
这让华赛公司开始重新审视存储。张国彬表示:“老实说,这些问题让华为存储真正学会了尊敬存储、敬畏数据。”这个世界上从来没有随随便便的成功,市场上的竞争友商之所以能够在市场中占据领先,跟它们多年以来摸爬滚打分不开,此时的华为存储还稍显稚嫩,面对这些问题显得有点措手不及。
从摔倒的地方重新开始,华赛公司痛定思痛,在时任华赛存储业务总裁范瑞琦的带领下,研发团队在2009年干了一件事情,除了手头上的研发工作之外,将底层所有存储协议、硬件部件要搞得清清楚楚、明明白白。
之后,研发团队硬是把厚厚的英文协议书全部啃了下来,然后重新进行抗振、防腐设计,并且与硬盘厂商进行联合设计,认真摸索每种、每块硬盘故障参数,并且进行软硬件联合处理,硬盘百万行代码的固件(Firmware)必须经过长时间的实验室验证才能给用户升级。
自此,华为存储确定了坚不可动的原则:存储可靠性第一,数据绝对不能丢失,存储产品只有做到数据不丢失才能上市。
“直到今天我依然清晰的记得,每个周末大家聚在一起做问题根因分析的日子,针对每个出现的问题大家刨根问底,直到最终把它解决。”张国彬回忆道。
另外让华赛这位存储少年受益匪浅的就是与世界一流人才的交流与学习。当时的华赛研发团队,很多人都毕业于名校,并且已经在存储领域积累了好几年的经验,对自己可谓是信心满满。但是世界一流人才的到来,向华为注入的不仅仅是存储领域各种领先的经验、技巧和方法,更是在思想层面对于华赛存储研发团队产生重要的影响。
比如,在存储领域非常常见的时延控制方面,时延可谓是存储领域一个关键指标,时延的波动与异常可能会给存储系统的性能带来极大影响,进而会直接影响到业务的性能。如何对于时延进行精准的控制可谓是一门手艺活,一流存储的大咖对于时延精准控制的专注犹如匠心精神,让华赛研发团队醍醐灌顶,明白了存储技术的打磨没有止境,需要有匠心精神对技术精益求精。
在这几年的独立运营中,华赛存储摔了很多跤、吃了很多苦,也获得了很多回报,整个公司运营状况良好,连续两次实现盈利;人才队伍建设卓有成效,研发体系打造初步成型;产品研发上节节开花,第二代中端系统、SSD硬盘等新品让业界为之一亮。
就在这时,华赛却选择了回归华为大家庭,这个选择会对存储已经构建起来的产品、研发、销售体系产生什么样的影响?
2011年11月4日,华为和赛门铁克宣布,双方已就华为以5.3亿美元收购赛门铁克持有的华为赛门铁克公司49%的股权达成协议。自此,华赛回归成为定局。
如果按照5.3亿美元的价格来计划,华赛公司当年的估值已经突破了10亿美金,可谓是名副其实的存储独角兽。华赛公司也用自己亲身经历证明了一个事实:这批华为存储人是有能力在市场中生存乃至干出一番事业。
此刻的回归,是会重蹈过去创业公司被并购入大公司之后碌碌无为的覆辙,还是会让整个存储业务如虎添翼、再上一个新台阶?这不仅是外界的疑虑,也是存储团队热切期盼知道的。
“正式回归之后,公司立刻大力投入存储,明显感觉到公司希望做大、做强存储业务。”一位经历过华为存储离开、独立、回归全过程的员工感叹道,“如果依然保持独立,出于营收、盈利等方面的考虑,研发上不可能完全放开手脚,尤其是在基础技术领域的研发上。”
自此,华为存储在研发体系和研发人才上正式步入了全球化、顶尖水平的建设阶段,为日后的OceanStor存储Dorado系列全闪存,Pacific系列海量存储等重磅产品打下了坚实的基础。
从国内来看,在成都、北京、深圳三地,华为存储早已建立起完善和强大的研发中心。全球也建立了多所存储领域的研究所。经过几年的打造,华为存储的研发团队已经媲美世界任何顶尖存储公司。
研发在回归之后另外一个最大的变化就是:平台化。随着全球研发体系的逐步建立与完善,华为存储研发平台化开始踏上了日程。张国彬透露:“以前在华赛时期,公司其实非常希望研发平台化。但是华赛毕竟在规模上还较小,平台化需要较长时间才会发挥作用。”但是,回归华为之后,华为存储研发平台战略所需要的条件非常完善,华为存储抽调了大部分研发力量来对平台化进行建设。
华为数据存储产品部部长项飞介绍:“存储平台化其实是一个渐进的过程,需要存储关键技术能力、软硬件研发能力、项目管理能力的不断积累,然后通过一个组件化的思路,让复杂的存储系统由各种组件来构成,不同的存储系统之间的组件构成也会有很大变化。”
毫无疑问,平台化战略就是先让各项技术、功能逐步完成组件化,并且基于解耦的思路去构建存储系统,最大限度的去复用各种技术与组件。这种平台化战略带来最直接的好处就是:研发效率大幅提升,组件之间互融互通、产品更新迭代更加快速,可以更加快速地响应市场上灵活多变的需求。
华为存储这种自成立第一天就基于平台化战略,与通过各种并购而来的平台有着天壤之别,虽然需要长时间的积累,但是随着时间推移,研发布局与分工逐步完善,核心关键技术的不断积累与沉淀,省去了日后各种产品与功能打通、兼容甚至未来规划的种种麻烦,其所带来的飞轮效应也会日渐突出。
还有一个显著改变就是,华为整个研发大体系中的研发成果能为存储所用,比如华为2012实验室研发成果、操作系统技术等等。项飞直言,存储是一种极为复杂的产品,涉及到计算、网络、介质等多个领域,考虑到数据中心未来的发展趋势,仅仅站在存储研发团队自身的视角是远远不够的,需要充分利用华为内部不同的研发团队,进行协作,以更加宽广的视角和开发合作的方式来推动存储不断向前发展。
自此,华为存储的技术创新+用户需求的双轮创新机制开始真正发挥威力。日后,华为存储产品一次次的在各种测试中刷屏霸榜,产品开创性创新也犹如芝麻开花节节高,这与其他相对“沉寂”的竞争对手形成了鲜明对比。
不过建立平台化是一个痛苦和长期的过程。在这之前,华为存储还遇到了更加富有挑战的事情:如何让自身产品线丰富和强大起来,在高端存储和分布式文件存储这两大领域实现突破。
在存储产业中,高端存储犹如最大一颗明珠,它直接代表着一家存储厂商在业界的地位。如果说不想当将军的士兵不是好士兵,那么不想做高端存储的厂商一定不是有远大抱负的厂商。这也是为什么华为会孜孜不倦投入到高端存储的研发之中。
众所周知,高端存储所拥有的高可靠、高性能、高一致性使得其技术门槛极高,从1990年以来,在高端存储市场真正拥有绝对实力只有EMC和HDS(后来更名为Hitachi Vantara)两家公司,要想突破市场竞争壁垒谈何容易。
“当时做决定还是非常艰难的,大家争议与讨论很多。”张国彬如是说,“毕竟一旦决定了,投入成本会非常巨大,也不允许失败。”事实上,华为存储要想进一步突破市场,攻克高端存储也是必经之路,“没有高端存储产品,中低端产品从长期来看也可能会卖不好。”
当时,云计算的趋势刚开始冒起,一些存储厂商已经看到了高端存储的弊病,虽然能够完美满足传统业务场景的需求,但扩展性弱、投入大的弊病开始在云计算时代中逐步放大。张国彬透露:“当时的确有好几家厂商看到了传统高端存储的弊病,大家都看到了未来的方向。”
为此,华为基于自身的技术基础,以及业界的趋势,开始着手投入到高端存储的研发之中。当时,张国彬带领100来号人在山里封闭了几个月,专攻华为高端存储的新架构设计。整个过程就像修炼绝世武功一样,日复一日的用功无法感知到武功的精进程度,当打通任督二脉,捅破那层窗户纸,犹如拨云见日、豁然开朗。
经过不断的摸索和努力,华为存储终于在2013年正式推出了基于SmartMatrix架构的第一代高端存储产品。这是中国存储厂商首次推出高端存储产品,其意义和价值非凡。
它给华为存储人注入了巨大的信心,也驱动着华为人主动去思考未来存储的变革,为日后Dorado系列高端全闪存等一系列开创性的创新奠定了坚实基础。其次,它为华为存储打开各个行业头部客户提供了产品利器,大大提升了华为存储的市场拓展深度和广度。
“项飞,有个重要的任务交给你们!带领团队把分布式文件存储搞出来。”
接到领导的通知之后,项飞心中不禁有点忐忑,一直干通信软件研发的他,这次要半路出家去搞存储啦。
此时的华为存储刚刚回归,产品线主要还是以SAN存储为主,之前华赛期间主要销售赛门铁克的文件存储产品。如今回归,要做大做强存储业务,属于华为自己的分布式文件存储产品必不可少。但在当时,研发分布式文件存储产品的确是一项重大考验,以致于华为内部也有部分声音认为很难研发来。
毕竟,在分布式文件存储领域,IBM、NetApp、EMC(收购分布式存储明星公司Isilon)这些大公司无论是产品技术,还是市场销售,都是当之无愧的翘楚。要想撬动分布式文件存储的蛋糕,华为需要付出比常人更多的努力才行。
“在华为就是什么事情都敢去试一试。不懂分布式存储没关系,我就当它是‘二次创业’,努力学习和坚持就是了!”项飞最终横下心去攻克分布式存储这道难关。
于是接下来,项飞开始忙着招人、调整研发团队结构。“最难的是人,我花了很多时间去面试全球各种人才,找到合适的骨干人才,才能带领团队不断前进。”项飞如是说,“整个团队很多人让我很感动,像设计部很多人都是搞电信软件的专家,他们全都打散到各个新团队之中,这次大家又重新开始,全部回到编码岗位,基本都是边学边干把分布式文件系统研发出来的。”
做出分布式文件存储不算很难,但做出有市场竞争力的分布式文件存储却不是件容易的事情。因为市场上的标杆已经足够高,像Isilon的全分布式对称横向扩展架构,元数据和数据均是分布在所有节点上,拥有极大的技术难度。华为的分布式存储也采用的是全分布式对称横向扩展架构,那它的成色到底如何呢?
全对称分布式架构非常具有挑战性,因为元数据全部动态分布式所有节点上,需要保证各种情况下元数据可用。在华为分布式存储的研发过程中,最大的难点也就是跟元数据相关的问题,“当时团队专家不分日夜排查出各种问题,保证了产品能够顺利推出。”
到了2014年,经过两年多努力,华为正式推出了采用全对称分布式架构的分布式文件存储OceanStor 9000,成为业内为数不多能够采用此架构的存储公司。并且,OceanStor 9000无论是性能、扩展能力、稳定低时延、自动分层能力都竖立了业界的新标杆。
华为OceanStor 9000
接下来几年中,华为OceanStor 9000就开始了它在市场中的精彩表演。先是在国内市场,OceanStor 9000大举进入到媒资、科研、石油能源勘探等领域,凭借出色的产品力捕获了一大批客户。不仅如此,OceanStor 9000还在海外市场展现出非凡的战斗力,在亚太、欧洲、中东等地区市场迅速获得认可。
一时间,存储老大EMC发现Isilon出现了一个最为强劲的对手。以至于EMC后来在官网专门发布了一段视频“怼”了一把OceanStor 9000,这恐怕是中国存储厂商第一次享受到存储巨头的高“待遇”。
用户永远是最好的老师,因为它能够最直白地让你洞悉出业务真实应用需求、自身的差距甚至竞争对手的优缺点。
2014年,张国彬远赴欧洲,成为华为存储市场一线中的一员,每天穿梭于各种展会、演讲之中。听说德国一家知名的电信公司正在招标,需要采购一批存储产品。张国彬决定和同事一起去接触和拜访该公司的架构师,争取把这家大客户一举拿下。
见面之后,该公司架构师非常实在,还没等张国彬口若悬河介绍华为存储产品各种优势,拿出一份标书表格,要求华为存储将产品性能能够达到多少、各种工具生态对接情况、可靠性情况等一一列举出来,“第一次遇见如此严谨和专业的用户,一下明白了我们离用户的差距还有点远,需要改进的地方还非常之多。”
2017年华为正式推出了OceanStor存储Dorado系列 V3产品。此刻的张国彬再见到这家电信公司架构师时,已经是底气十足、自信满满,将V3产品的存储特性、性能、可靠性、易用性、工具与功能一一讲解,以极佳的专业性顺利打动客户之后,华为存储产品又顺利通过了POC测试,该家客户也一次性采购了华为存储多套高端存储产品。
2015年,瑞典一家世界级的机械制造公司开始加大自动驾驶在产品中的应用,由于机器学习和深度学习需要不断对数据进行训练,并且数据是千亿级的海量小图片、小视频,传统分布式存储通常是大文件、大带宽的,很难适合像自动驾驶这种AI训练场景,该公司架构师在与华为存储团队交流中吐槽,因为不同场景的需求,多套不同存储来跑不同的应用,又开始产生了数据烟囱。
对此,该公司架构师与华为存储讨论,能不能通过一套分布式存储来支撑数据湖,除了自动驾驶业务之外,还能满足车联网、传统CAD与CAE等应用。于是,华为存储决定与该客户进行联合创新,研发一套分布式存储支撑所有应用集成。
接下来,华为存储与该客户紧密合作,跟客户探讨每一个功能如何设计、参数如何设计,并且在每个场景中进行测试、部署与应用。瑞典这家公司直接让华为理解了新业务场景所带来的挑战以及需求。“面向新的应用场景,华为存储必须走的快,而且需要与用户一起做,不能闭门造车。”
回归华为之后,华为存储在海内外与各个行业的头部顶级客户联合创新日益增多,涉及到金融、电信、能源、媒资等多个领域,对于头部客户数据中心存储需求和痛点有着极为深入的理解,也为日后产品创新和产品力的大幅提升奠定了坚实基础。
从2015年开始,海内外包括金融、运营商、能源等多个行业的头部客户在与华为存储交流的过程中,都提到了分布式,用户们渴望在主数据中心的核心中部署分布式存储,让核心应用也能够享受到分布式存储的好处。
“像荷兰的一家电信公司,数据量当时都超过300PB了,非常渴望向分布式的云架构转型。”张国彬表示,“他们希望分布式可以承载数据库、虚拟机这些核心业务,也能够承载大数据、AI这些新应用。”
这些客户的需求直接促成了华为打造新一代智能分布式存储—OceanStor分布式存储。2016年,华为存储迅速集结了集中式领域和分布式领域最优秀的架构师,一起攻关如何将分布式存储和集中存储融合在一个产品之中。
“这时候华为存储平台化的战略优势就显现出来了。华为研发的大部分力量都在平台产品上,可以充分调动资源进行攻关。”张国彬透露,“这是其他公司很难去实现的,因为按照他们那种模式,投入的成本和时间极其大。”
同样经过两年多的研发,华为存储在2019年正式发布了新一代智能分布式存储-OceanStor分布式存储。华为北京、上海、深圳、成都等地的存储研发团队跨地域紧密协同,设计出一套全新的存储架构,进行了数千万行代码开发,并先后进行了近十个版本的迭代,反复打磨、优化的成果。
华为OceanStor分布式存储产品不仅实现分布式存储性能全球第一,单节点性能高端16.8万 IOPS和1毫秒以内时延,在业界标准SPC-1测试中排名第一;还首次在一套存储中实现了同时支持块、文件、对象、HDFS协议;并且,率先将人工智能技术融入到存储全生命周期管理。
在OceanStor分布式存储为用户数据中心提供一套简单却功能强大的存储背后,其实是研发团队反复打磨与优化的成果。比如,为解决性能波动的“隐形瓶颈”,华为存储研发团队动用了全球研发体系内的操作系统调度专家、网络专家,让性能波动彻底解决,实现了非ARM节点14万IOPS、ARM节点16.8万IOPS的稳定性能。
分布式存储有三大难,其一是数据不一致情况如何解决,由于数据打散在各个节点上,很容易出现数据不一致的情况,尤其是在高性能、大并发的数据读写情况下如何保持数据一致性。这需要华为存储在并发机制上做到精准无比。为此,华为存储研发团队研发出一套新的日志机制与工具,在海量数据中去追踪和查看IO异常,实现了上千个节点不同场景下的数据不一致情况检验。
其二是分布式存储功能与性能如何平衡,像重复数据删除功能对存储性能影响很大。为此,华为存储研发团队专门开发出一种加权算法,让重删功能实现自适应调整,为用户减去了过去需要不断手动配置的复杂性,呈现出极为简单的易用性。
最后则是如何防范数据丢失。通常,分布式存储所承载的应用场景是多样化和复杂化,这也直接促使了数据丢失潜在因素的增多。针对这种情况OceanStor分布式存储在只有64个字节的可靠性校验的空间容纳了30多个场景的预防方案,每个预防方案的“植入”需要精准到每个比特位,堪称手术刀般精准。
这是一个真实的用户故事。
某家世界级的物流公司,一套高端存储上跑了4000台服务器,按照传统高端存储的架构,如果做系统软件升级,为防止前端多路径运行不正常,必须在升级之前将4000多台服务器的多路径检查一遍。客户每次做升级,都犹如面临世界末日般,处于崩溃边缘。
这家公司的情况真实反映出很多用户的囧境:应用越来越多、业务越来越灵活,应用环境正在快速变化,高端存储需要有能力在数据中心承载起更多的业务,过去只承载几种业务的情况已经一去不复返。
如今,高端存储该进行变革啦。有人说,科技这个行业不尊重过去,只尊重创新,你不创新就只有等死。此时的华为,在全闪存技术、高端存储架构上的积累已经完成,是时候打造出一款面向未来、满足用户数据中心极致需求的产品,让高端存储重新焕发新生机。
众所周知,闪存对于存储产业有着革命性的影响,全闪存存储被认为是大势所趋。而传统高端存储恰恰是基于传统硬盘时代的产品,哪怕后来有厂商在高端存储中加入闪存,也仅仅是一种优化的妥协选择。
全闪存,这是一条全新的赛道。在新赛道意味着你有机会实现对竞争对手的追赶,尤其是高端全闪存领域,将会是一次软硬件架构、功能堆栈的全面重塑。而华为在闪存领域已经拥有深厚的积累。
其次,华为存储在SmartMatrix高端存储架构上的经验,推动了下一代高端存储在架构上的进一步突破。华为存储开始将Scale-Up和Scale-Out进行融合,采用了模块化横向扩展、所有关键部件全解耦全共享架构,并且融入了多项智能化技术。
2019年发布OceanStor Dorado V6新一代全闪存产品
2019年7月,历时近三年的华为全新一代OceanStor Dorado V6系列产品正式亮相:拥有业界最高的2000万IOPS极致性能,业界最低0.1ms的稳定时延、控制器8坏7的极端情况依然工作、基于AI算法的全生命周期智能运维,并且可以实现故障0感知、业务0影响、升级0影响,真正保障用户业务永久在线。
如果说华为存储过去一直都算跟随的话,那么OceanStor Dorado V6产品的惊艳亮相则标志着华为存储开始引领,它是华为存储多年技术积累与创新的一次爆发,让大家看到了华为存储走出了一条不一样、具有开创性价值之路。
存储产品是数据的最终目的地,除了性能和效率之外,数据可用性和持久度、产品的可靠性等要求极为严格。做存储的开发有时候就像打造一件复杂的艺术品,需要技术研发人员不断的雕琢与打磨,追求完美的状态。
“存储对于工程师的匠心文化要求很高。因为代码一不小心,可能整个盒子就崩了,会给用户带来灾难性的后果。”华为存储首席架构师黄克骥如是说。
经过长期积累,华为存储软件已经达到几千万行代码的规模,存储研发团队依然对每一行代码都是高标准的质量要求。例如,在重复数据删除与压缩领域,作为降低存储成本、提升存储效率最为有效的技术,重删压缩被认为是衡量存储产品水平的重要标志,但是重删压缩功能一旦出现问题,造成数据损坏或者丢失,其给用户带来的后果是极为严重。因此,华为对于重删压缩测试极为严格,严防有Bug遗漏,不断打磨代码,做到万无一失。
在硬件层面,华为存储有专门的可靠性团队和专业的可靠性实验室对各种硬件组件进行测试,寻找可能存在的漏洞,在可靠性方面不停的精益求精。
“华为存储研发一线有很多低调、才华横溢的人才。”黄克骥介绍到。
比如有这么一位痴迷于代码的技术大咖,融合存储文件系统是他编写的、复制核心模块是他编写的、全闪存架构核心模块是他编写的、重复数据删除模块也是他编写的,这位代码大神从华为历史上企业级到分布式核心模块都写过。“他表达方式就是代码,我们都说他是个扫地僧,普华务实的外表下藏着万丈光芒。”
“除了专注之外,华为非常看重研发人才的全栈能力。何为全栈能力,就是技能全栈化和业务全栈化。”项飞介绍道。在技能全栈化方面,华为要求开发必须懂测试,测试必须懂产品设计、后端维护,通过岗位轮换让研发人员把这些技能拉通,从而变得更加全面;又比如,在产品架构内,华为会通过让员工在不同子系统研发的方式让员工尽可能多掌握技术;此外,华为还会让研发定期去前端支持销售和后端支持服务等等。
以存储架构师为例,在华为存储有不成文的规定:架构师也需要写代码。有些架构师,从RAID 2.0功能到华为OceanStor存储Dorado系列V3、V6两代产品都是自己做架构、写代码,长期保持这种状态。以至于华为存储内部人打趣道:“不会写代码的存储架构师不是好的存储售前。”
一抹丹青色,最是匠人心——用来诠释华为存储的匠心精神再恰当不过。
如今,存储产业又站在下一个变革的十字路口。
人工智能技术的不断成熟与应用,正在深刻影响着存储产业。融入人工智能技术的智能存储被认为是重要的趋势,它希望本质上解决过去存储操作、运维复杂化的情况,让存储变得更加简单化。
“智能会成为存储的基础能力。”华为数据存储与机器视觉产品线总裁周跃峰表示:“未来的存储首先需要Storage for AI,能够帮助用户更好地利用智能技术,满足像AI训练、应用的需求;其次是AI in Storage,就是将AI技术融入到存储全生命周期,让存储管理、性能、效率、维护更加出色。”
华为在智能存储的探索上一直走在业界的最前沿。华为OceanStor存储Dorado V6产品是业界首个AI加持的高端存储系统,并且在重删压缩算法、智能存储运维等方面大量运用了机器学习的方式,通过AI+智能算法实现了存储系统的智能自调优,可以让存储可以越用越好。
但智能存储依然有很长的路要走,现阶段智能存储主要是解决了故障定位与业务管理等运维优化工作,以及一些基于AI的智能Cache算法、重删压缩算法等等,让一些专业化的存储操作变成自动化。未来,存储也会类似自动驾驶那样,会根据不同的负载情况和业务场景来智能化选择相应的存储功能与技术。
除此之外,在数据成为数字经济最关键的生产要素时,存储作为数据基础设施重要的一环,依然存在着非常多的挑战。帮助企业实现数据“存得下、流得动、用得好”,需要包括华为存储在内的所有存储厂商继续探索。
“我们的征途似星辰大海,从此只顾风雨兼程。”——华为存储一直在路上。
尾记:《华为存储成人礼:我们的征途似星辰大海》四篇连载已经结束。虽是万字长文,但亦无法将华为存储十八年历程一一展示。谨以此文向中国存储产业从业者致敬,望大家不忘初心,砥砺前行!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。