1.马云并不懂技术,他没听懂王坚讲的那些技术优势,也不了解云计算背后到底是什么。但他听懂了一点,不上云,光是继续买服务器就足以让阿里破产。而这,也将是此后数年间中国绝大多数企业要面对的共同难题。
2.所谓的“去IOE”,就是采用自主研发和替代性方案来重构阿里的数据系统,以摆脱过去对IBM小型机、Oracle数据库和EMC2存储设备这“三大件”的依赖。
3.“去IOE”,不仅要将传统的集中式系统架构全部改为云计算的分布式架构,还要确保业务跑在上面,性能和稳定性能够超越IOE。
4.稳定性要求极其严格的金融系统,如何与初生的“飞天”(Apsara)平台融合,打造一个“去IOE样板”?“牧羊犬”计划就这样诞生了。
中间有许多“打怪”的有趣细节,堪称技术界的“吐槽大会”:比如问题层出不穷,系统总爱出错,“分布式计算”也被调侃为“分步试计算”。又比如工程师必须24小时紧盯着系统,“人肉云计算”由此得名。
戏谑的背后,是阿里云的“至暗时刻”。不少集团员工质疑这个业绩常年垫底的子公司为何还要继续存在,许多“飞天”战友也在长久的攻坚战前倒下,出逃的出逃、转岗的转岗,2012年的阿里云“共创会”上,王坚甚至摔了话筒。
好在故事的结尾,以喜剧收场。
在一次较大的升级之后,“飞天”系统稳定得“不像是阿里云的作品”。2012年底,王坚将“飞天奖”颁给了阿里云的全体员工,颁奖词是——坚持就是伟大。
5.2019年春节刚过,他给“奶爸们”下了新的任务——全集团不再购进一台物理机,今年双11,让这条龙把全集团的算力撑起来。
龙生艰难,工程师们不得不对其进行了极致改造——神龙芯片IO加速,弹性计算平台架构,软硬一体化的安全防护,最终当第三代神龙与我们见面时,它已经接近于“龙生巅峰”——不仅损耗接近零,性能还比上一代提升了5倍。
不能下单、网络崩溃、支付卡顿等情况,再也没有出现在双11现场,背后最大的支撑,就是来自技术的洪荒之力。