03.02 阿里云宕机,你怎么看?

jsonAjax


我不知道为什么阿里宕机会有这么多人说阿里云垃圾之类的话。任何一个云服务系统都宕机过。去年AWS也大规模宕机过,而微软则经常宕机。



根据2017年统计的数据,2016年Google Cloud的宕机时间总计为47分钟,微软Azure服务宕机时间为270分钟,亚马逊AWS宕机时间为108分钟。宕机的原因也是五花八门,但绝大多数都是人为操作失误。阿里这次也是人为操作的失误,本质上与去年的AWS大宕机是一模一样的。


毫无疑问,阿里云是一个可靠的平台,它是世界第四大公有云。排在它前面的是AWS,Azure和Google三大巨无霸。可以说,阿里做到这一步是非常不容易的。阿里云的自研程度是最高的,它是深度闭源的,而我们常见的一些其他云都是通过开源项目开发出来的。

这类似于谷歌的安卓系统,安卓系统虽然是基于Linux开发的,我们依然认为这是谷歌公司开发的。与之对应的就是,那些没有进行深度闭源开发的云计算厂商,就类似于国内很多手机厂商基于安卓系统推出的XX OS(实质上是UI)一样,虽然有自主开发的部分,但是缺乏自主性。

有些人说这是一次危机,这简直是无稽之谈。这种事故对阿里,或者对任何一个规模的云服务提供商来说都是一个教训和宝贵的经验。什么管理层上的问题就更可笑了,人员操作难免有失误,而且这种失误只能减少,不可能避免。


看球人


欢迎在点击右上角关注:「太平洋电脑网」,不定时放送福利哦!

那就是证明阿里云的技术还有很大的提升空间咯。

6月27日下午,有大量用户反映阿里云控制台访问出现问题,用户账号无法登陆,图片服务无法使用。同时,阿里云官网的部分管控功能、MQ、NAS、OSS(对象存储)等产品的部分功能也出现无法访问异常现象。

你要知道,阿里云是中国最大的云服务的提供商,阿里云出现问题了,那就是意味着很多的网站也无法运行。这样的影响当然不只是阿里一个,对于社会的发展还是有影响大。

为什么会出现大面积的问题?

28日,阿里云官方发布公告表示:““工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug。错误代码禁用了部分内部IP,导致部分产品访问链路不通。后续人工介入后,工程师团队快速定位问题进行了恢复。”

虽然。阿里的技术确实很强大,但是实际上也不是没有漏洞的,外部入侵虽然困难,但是阿里的一个工程师就能让阿里云出现这么大面积的问题。

同时,我们看看,每年双十一的时候,我们在天猫上抢购的东西的时候也会出现严重的卡死,大家总是买不到自己想要的东西。这可怎么办?只能凉拌咯!因为阿里已经是国内行业内数一数二的公司和技术高手了。

这也告诉我们,不要自满,阿里技术虽然还真挺强,但是还没有到我们想象中的强大。

这也告诫其他公司,不要以为阿里云的服务这么好,就能安枕无忧,还是需要好好的招技术人才,平时也需要注重人才培养。关键时刻你可能还是需要靠自己才能解决问题。

不过更应该烦恼的应该是阿里了,毕竟全国人都知道,知道阿里云出现了大面积的问题。阿里还是要加强内部管理和技术啊!


太平洋电脑网


依我看,这次大规模故障对阿里云来说是负面的,国内最大的云服务商竟然出现人为操作失误,让大家知道,低级错误一样可以发生在全球第四大云服务商的日常运维工作当中。

具体情况是,6月27日下午,大量用户反应阿里云控制台访问出现问题,导致无法登陆,此外,阿里云官网的部分功能也出现访问异常现象。到了6月28日凌晨,阿里云通过其官方微博对此次故障进行了公开回应,故障原因是由于运维上出现的一个操作失误而导致。

尽管事后很快进行故障定位并恢复相关功能,用户也没有发生数据丢失或隐私泄露等重大情况,但影响短时期内消除不了,发生失误的具体原因用户并不关心,大家信赖阿里云才会把自己的重要业务放在上面,阿里有责任也有义务做好日常运行维护工作,不辜负用户的信任和重托。




震长


这算是一次重大危机了,作为一家云计算公司,并且是中国最大的云计算公司,并且号称搞定了12306订票系统的云计算公司,这次失误简直是不应该,甚至可以说是弱智!

  • 原因众说纷纭,这个内部消息可信度比较高

事件起因是很多阿里云的用户,发现用户访问不了系统了,并且自己登陆阿里云控制台也出问题了,并且发现OSS一并出问题了,一时间微博和朋友圈一片哀嚎。

现在基本问题如下,内部消息,可信度一级!

阿里云的函数计算挂了,导致线上故障。打算马上降级到本地计算,结果阿里云的 Kubernetes 也挂了。想着挨个机器手工改一下,发现 OSS 也挂了…
整个过程没有报警,因为 SLS 也挂了…

所以,这很显然阿里云不管是技术策略还是管理策略都有很大的问题。

  • 鹿晗都把微博搞崩了,阿里云居然没把微博搞崩,很社会啊

相信大家还记得鹿晗和关晓彤爆出恋情的那次吧,一个鹿晗就把微博就搞垮了,并且搞得微博全线崩盘,微博的工程师甚至不得不在结婚拜堂的时候停下来解决问题。

要知道微博可是也在用阿里云的服务器啊,这次阿里云出现问题,基本上全网一半的互联网公司都受到了一定的影响,但是微博坚挺着。至少说明鸟哥(惠新宸,不知道的尤其是程序员自己面壁去哈)很厉害,微博的架构也很厉害,没有在这次事故中出问题。不过回过头来想,堂堂阿里云居然不如一个大名鼎鼎的鹿晗的攻击力,社会啊,社会!

  • 其实不用奇怪,阿里的技术真的没有好的那种程度

其实还是那句话,也不用奇怪,再大的公司,技术再强的公司也会犯错,就像我当年一直说的那样,阿里云并没有搞定12306,只是分担了12306部分查询的服务器压力,技术核心架构和核心算法还是12306自己,就像微博一样,否则的话这次不久挂了吗?

在每年双十一,十数万的峰值确实是行业顶尖,但是实际上阿里也没能解决这个问题,每年双十一凌晨开始的那段时间,至少有半个小时是卡住的,没办法下单更没办法支付。在2018年狗年春晚上,淘宝的红包活动,更是直接把整个淘宝给卡死了,想想就算是腾讯第一年的微信红包也没卡到这种程度,虽然变量更多,但是作为号称比肩亚马逊AWS的云计算公司,又是微信红包几年之后,这个结果很显然不能让人满意。

  • 用户把身家性命押给阿里云,换来的却是:实习生的失误,那么给赔付吗?

要知道,用户使用阿里云,对于云计算服务来说,基本上可以说用户把自己的身家性命都押给了阿里了,但是事情出来以后,结果确是换来一句实习生的失误,最终又被爆出内部消息,疯狂打脸所谓实习生失误的说辞。

我觉得不管是安全策略、内部管理都得提升,技术选型得改变,很显然阿里云这不合理,未来的主力方向应该是分布式解决方案,并且逐步去中性化,加强异地备份以及异地管控,这样出了问题也不至于全线崩塌。

对于很多企业来说这是几乎毁灭性的打击,那么阿里会对此作出赔付吗?当然不会!要是赔,阿里巴巴和蚂蚁金服卖了都赔不起。阿里云已经不是第一次这种重大失误了,真的是要赔的话,阿里真的赔不起,这频率太高了,而且都是重大失误。

  • 平时听吹牛稳如狗,一出问题慌如狗!

其实最怕的就是这种情况,平时被阿里的牛皮吹得晕乎乎的,很多人自己也开始迷信阿里,觉得阿里多么牛逼,相信很多平时阿里的水军如果也用的阿里云这次应该吃亏了吧。任何事情都不是绝对的,阿里强大无比毫无疑问,但是阿里不可能一直不犯错!

但兄弟们应该可以放心,狡兔三窟阿里云应该有备份,应该问题不大。

这就是这次事情的全部还原以及看法,当然这里也给大家提个醒。我觉得大家也可以尝试一下其他企业的云服务,比如亚马逊的AWS,微软的Azure,国内还有腾讯云和百度云,至少以后不要把鸡蛋都放在阿里云这个篮子里。不然出了问题后悔莫及!!!


EmacserVimer


云服务行业希望提供给用户安全值得信赖的产品和服务体验,但这份安全总是相对的。刚刚走过了10年的中国云计算,只是刚刚摆脱了稚嫩的面庞,也请给予它足够的时间去成长!

理性来看,发生在友商身上的案例,不是第一件,也很有可能不会是最后一次,纵使世界范围内云计算行业的巨无霸AWS也不能避免出现上述情况。根据公开资料显示,仅仅在在刚刚过去的2018年,全球范围内就有数十起云计算故障事件发生,而事件背后的云服务商皆为世界知名云服务商。

对于云服务商而言,有责任通过技术及管控手段将安全事故率降到最低,但再先进的技术也不能保证万无一失,与之配套的运维措施便显得尤其重要!

2019年,云计算行业将会见证越来越多的传统企业上云。

银行、保险、制造业等均选择云计算作为未来战略转型升级的重要支撑载体,一改过去主要以互联网客户为主的现状。云计算产业正在进入广泛的应用渗透,以及产品迭代升级与客户拓展交互推进的阶段,整体行业正在进入业绩逐步兑现的阶段。企业上云已然是大势所趋!

这里给上云企业的几点小建议:

1、不要把所有的鸡蛋放在一个篮子里,这点对于云服务行业同样适用

多云方案可有效避免由于某一云平台故障产生的风险,也是较有效的降据数据丢失风险的手段。

无论是中国还是放眼全球,云计算市场早已是百花齐放,而这也留给用户足够适合自身的选择。

2、职责明确,把丑话说在前面

这份职责明确,是因为当下云计算发展整体还不够成熟,问题发生之后制度还不够健全和完善,无论是由于云服务商的问题造成的数据丢失、客户自身错误操作还是其他原因造成的损失都需要在问题之前尽量全的规范说明,这样一旦发生问题便有据可依。实际上,对于云服务商和客户谁也不希望发生安全事故,若出现问题,平台就应该遵守和按照合同约定,遵守契约精神用更稳妥合理的方式尽快的解决问题。

3、自身安全意识和能力的提升

首先对于很多传统企业以及初创企业而言,首先需要自身的安全意识,同时需要配置安全管理的专业技术人员。最后,结合自身的实际情况选择适合自身的上云方案,包括了解适合自身的服务商、选择哪一种方式(混合云、多云方案等)上云等。

对于云服务商而言,云安全这条路2019才刚刚上了正道。无论是自身的产品和安全架构是否稳健、对于每一位客户的定制化解决方案是否合适、产品的便捷程度和延展性是否足够、出现问题之后的反馈和处理方式是否妥当等等问题,对于每一家云服务商而言通往「更安全的云」这条路没有终点!

相对的云安全,需要绝对的努力去实践,这也是每一家云服务厂商的职责和使命!


视界云科技


是阿里的问题,技术、运维上出现了重大的失误,被人吐槽是应该的。但是很欣赏阿里之后发表的故障说明,坦诚、不找借口,表达出了足够的诚意。


公司做大了难免在某些方面会出现问题,相信阿里云不是第一次,也不会是最后一次出现故障、但对于自己问题的态度是遮掩、否认,还是承担责任,虚心道歉,这体现了一家公司的价值观。这点上,阿里真的做的很好,记得之前支付宝的“校园门”事件之后,当时的董事长彭蕾也在第一时间做出了诚恳的自我批评。


我觉得这不仅仅是一家公司所谓的“危机公关”,而是公司是否具有社会责任担当的体现。阿里云不仅仅是一项生意,同时也承载了千千万万小企业的业务和生命,这点上“敬畏每一行代码,敬畏每一份托付”应该是阿里云接下去的工作重点。



高挺观点


刚刚看完《颠覆者:周鸿祎自传》,是一本自己吹上天的书,至于网络上对周鸿祎本人极具争议的部分,该书避重就轻,或者根本不提,所以说,这本书太一言堂了,不立体,不解渴。

但另一个加深的事实也很明显:网络安全太重要了。这也是360回归A股的原因,也是不得不回归的原因。试想,以后国与国之间的竞争,很大程度上是网络安全的竞争,如果360是家境外上市公司,估计发展前途有限。

因为阿里云是一家国内公司,相关国内机构和公司自然选择它,因此迅速超赶,目前号称是继亚马逊云,谷歌云之后的世界第三大云呢。

阿里云宕机,我第一想到的是安全问题。虽然至6月27日17时30分,阿里云称受影响的产品功能大部分已恢复。

但看宕机事件的各种评论留言,阿里云一直被吐槽,什么半年发生一次故障,技术没那么强之类。可想而知,号称继天猫、蚂蚁金服之后,阿里巴巴最具想象力的业务阿里云,还有众多技术难关需要克服。

第二个想到的问题是,云计算怎么才能更可靠。

我们想当然的把云服务想成电力服务,开灯就有电,上传云端即存在。但突然失灵了怎么办,分布式云计算要怎么做,有怎样更可靠的系统?

至6月28日,并未看到阿里云发布这次宕机的具体原因,到底哪出了错。是自身问题,还是受攻击的问题。

第三个想到的,阿里云、华为云、腾讯云、百度云,看来有关云的战争并没有结束,虽然阿里云国内市场份额第一,且有各种高调宣传。

每家巨型互联网公司,都没有主动认输,华为云以超强技术的认知被不少人寄予厚望。华为云会不会像智能手机一样,后来者居上呢?

如果阿里云发生宕机的问题不解决,在决战之时,一定会吃亏。就这次宕机,相信在前线抢业务的团队会受影响,明显后方未稳固嘛。

但不管怎么说,在我写有关阿里巴巴的文章时,阿里云内部创业的故事还是会占据重要的笔墨。有关阿里巴巴前瞻性布局,创业过程中的坚持,及迅速地抢占市场,都值得书写。

希望阿里云的故事能持续,可惜的是,只有内部极少数专家能说出,阿里云这次宕机是一次低级事故,还是业界普遍忽视的公共性问题导致?

请阿里云有关方详细地作答,别糊弄过去,别宕机解决之后就当作没发生过。


财经作家邱恒明


阿里云当机在我看来挺正常,因为阿里云远没他自己吹的那么好!为啥这么说,因为自己有亲身感受!

自己所在公司前年整体搬迁到了阿里云上,然后过了大概半年左右发生了一次故障,导致网站访问出现问题,而最终这个故障的缘由是阿里云这边出的问题。最后,在经过整整几个小时的等待后,阿里云这边才修复问题恢复正常。一个号称国内一等一的云服务提供商,竟然要几个小时才能恢复服务,竟然没有预备的临时方案给客服使用。只能眼睁睁看着自己公司的网站无法正常访问,不能慢慢等待阿里云这边修正故障。

至此事后,对阿里云算是有了一手的认识,网上吹的再牛逼,实际也就是这样,远远达不到他们自己所吹嘘的程度。

这次的当机,只能说彻底暴露了阿里云的真实水平,还是多多努力多提高下自己的技术和服务,别整体吹水了!

对了,这个问题描述里提到的IT之家此前(2016年)也因为阿里云的糟糕服务(主要是稳定性太差),将服务器从阿里云迁移到了百度云。IT之家为此还专门发了一篇公告,当年也算是一篇爆文,在朋友圈刷屏。

看来,多年的发展阿里云仍旧没太大的改观,平常吹水吹多了,还真认为自己云服务国内第一呢,这下自己打自己脸了,也算给自己清醒下,好事!



Lscssh科技官


问题本质分析

1.自动化运维没有考虑自动回滚恢复。2.代码没有进行Code Review导致有“未知代码”产生。3.测试环境的仿真程度太低。

不要把鸡蛋放在一个篮子里,你可以多个云计算服务一并使用。



vazi


阿里云这次事故是可以理解的,做过技术的都知道没有百分百可靠的架构和系统,然而关键问题是问题发生后恢复的速度和对于其他企业损失的可控,这次事件显然说明阿里云还有很大提升空间,最后,所有系统都是不断迭代出来的,能支持国内的就别支持国外的了,如果aws好都用aws,等阿里云,腾讯云这些国内企业真的不行了,美国再来一波技术制裁你这些上aws的中国系统都是对方谈判的筹码,所以我的观点是,阿里云作为国内最大的云企业,出现这种问题并造成这么大的影响,是非常失职的,但是直接判处死刑也有点过了,你不能保证其他云企业特别是国内的做的比阿里云更好,给予国内企业多点宽容,一棍子打死会毁了中国的创新和技术的热情。


分享到:


相關文章: