03.02 阿里雲宕機,你怎麼看?

jsonAjax


我不知道為什麼阿里宕機會有這麼多人說阿里雲垃圾之類的話。任何一個雲服務系統都宕機過。去年AWS也大規模宕機過,而微軟則經常宕機。



根據2017年統計的數據,2016年Google Cloud的宕機時間總計為47分鐘,微軟Azure服務宕機時間為270分鐘,亞馬遜AWS宕機時間為108分鐘。宕機的原因也是五花八門,但絕大多數都是人為操作失誤。阿里這次也是人為操作的失誤,本質上與去年的AWS大宕機是一模一樣的。


毫無疑問,阿里雲是一個可靠的平臺,它是世界第四大公有云。排在它前面的是AWS,Azure和Google三大巨無霸。可以說,阿里做到這一步是非常不容易的。阿里雲的自研程度是最高的,它是深度閉源的,而我們常見的一些其他雲都是通過開源項目開發出來的。

這類似於谷歌的安卓系統,安卓系統雖然是基於Linux開發的,我們依然認為這是谷歌公司開發的。與之對應的就是,那些沒有進行深度閉源開發的雲計算廠商,就類似於國內很多手機廠商基於安卓系統推出的XX OS(實質上是UI)一樣,雖然有自主開發的部分,但是缺乏自主性。

有些人說這是一次危機,這簡直是無稽之談。這種事故對阿里,或者對任何一個規模的雲服務提供商來說都是一個教訓和寶貴的經驗。什麼管理層上的問題就更可笑了,人員操作難免有失誤,而且這種失誤只能減少,不可能避免。


看球人


歡迎在點擊右上角關注:「太平洋電腦網」,不定時放送福利哦!

那就是證明阿里雲的技術還有很大的提升空間咯。

6月27日下午,有大量用戶反映阿里雲控制檯訪問出現問題,用戶賬號無法登陸,圖片服務無法使用。同時,阿里雲官網的部分管控功能、MQ、NAS、OSS(對象存儲)等產品的部分功能也出現無法訪問異常現象。

你要知道,阿里雲是中國最大的雲服務的提供商,阿里雲出現問題了,那就是意味著很多的網站也無法運行。這樣的影響當然不只是阿里一個,對於社會的發展還是有影響大。

為什麼會出現大面積的問題?

28日,阿里雲官方發佈公告表示:““工程師團隊在上線一個自動化運維新功能中,執行了一項變更驗證操作。這一功能在測試環境驗證中並未發生問題,上線到自動化運維繫統後,觸發了一個未知代碼bug。錯誤代碼禁用了部分內部IP,導致部分產品訪問鏈路不通。後續人工介入後,工程師團隊快速定位問題進行了恢復。”

雖然。阿里的技術確實很強大,但是實際上也不是沒有漏洞的,外部入侵雖然困難,但是阿里的一個工程師就能讓阿里雲出現這麼大面積的問題。

同時,我們看看,每年雙十一的時候,我們在天貓上搶購的東西的時候也會出現嚴重的卡死,大家總是買不到自己想要的東西。這可怎麼辦?只能涼拌咯!因為阿里已經是國內行業內數一數二的公司和技術高手了。

這也告訴我們,不要自滿,阿里技術雖然還真挺強,但是還沒有到我們想象中的強大。

這也告誡其他公司,不要以為阿里雲的服務這麼好,就能安枕無憂,還是需要好好的招技術人才,平時也需要注重人才培養。關鍵時刻你可能還是需要靠自己才能解決問題。

不過更應該煩惱的應該是阿里了,畢竟全國人都知道,知道阿里雲出現了大面積的問題。阿里還是要加強內部管理和技術啊!


太平洋電腦網


依我看,這次大規模故障對阿里雲來說是負面的,國內最大的雲服務商竟然出現人為操作失誤,讓大家知道,低級錯誤一樣可以發生在全球第四大雲服務商的日常運維工作當中。

具體情況是,6月27日下午,大量用戶反應阿里雲控制檯訪問出現問題,導致無法登陸,此外,阿里雲官網的部分功能也出現訪問異常現象。到了6月28日凌晨,阿里雲通過其官方微博對此次故障進行了公開回應,故障原因是由於運維上出現的一個操作失誤而導致。

儘管事後很快進行故障定位並恢復相關功能,用戶也沒有發生數據丟失或隱私洩露等重大情況,但影響短時期內消除不了,發生失誤的具體原因用戶並不關心,大家信賴阿里雲才會把自己的重要業務放在上面,阿里有責任也有義務做好日常運行維護工作,不辜負用戶的信任和重託。




震長


這算是一次重大危機了,作為一家雲計算公司,並且是中國最大的雲計算公司,並且號稱搞定了12306訂票系統的雲計算公司,這次失誤簡直是不應該,甚至可以說是弱智!

  • 原因眾說紛紜,這個內部消息可信度比較高

事件起因是很多阿里雲的用戶,發現用戶訪問不了系統了,並且自己登陸阿里雲控制檯也出問題了,並且發現OSS一併出問題了,一時間微博和朋友圈一片哀嚎。

現在基本問題如下,內部消息,可信度一級!

阿里雲的函數計算掛了,導致線上故障。打算馬上降級到本地計算,結果阿里雲的 Kubernetes 也掛了。想著挨個機器手工改一下,發現 OSS 也掛了…
整個過程沒有報警,因為 SLS 也掛了…

所以,這很顯然阿里雲不管是技術策略還是管理策略都有很大的問題。

  • 鹿晗都把微博搞崩了,阿里雲居然沒把微博搞崩,很社會啊

相信大家還記得鹿晗和關曉彤爆出戀情的那次吧,一個鹿晗就把微博就搞垮了,並且搞得微博全線崩盤,微博的工程師甚至不得不在結婚拜堂的時候停下來解決問題。

要知道微博可是也在用阿里雲的服務器啊,這次阿里雲出現問題,基本上全網一半的互聯網公司都受到了一定的影響,但是微博堅挺著。至少說明鳥哥(惠新宸,不知道的尤其是程序員自己面壁去哈)很厲害,微博的架構也很厲害,沒有在這次事故中出問題。不過回過頭來想,堂堂阿里雲居然不如一個大名鼎鼎的鹿晗的攻擊力,社會啊,社會!

  • 其實不用奇怪,阿里的技術真的沒有好的那種程度

其實還是那句話,也不用奇怪,再大的公司,技術再強的公司也會犯錯,就像我當年一直說的那樣,阿里雲並沒有搞定12306,只是分擔了12306部分查詢的服務器壓力,技術核心架構和核心算法還是12306自己,就像微博一樣,否則的話這次不久掛了嗎?

在每年雙十一,十數萬的峰值確實是行業頂尖,但是實際上阿里也沒能解決這個問題,每年雙十一凌晨開始的那段時間,至少有半個小時是卡住的,沒辦法下單更沒辦法支付。在2018年狗年春晚上,淘寶的紅包活動,更是直接把整個淘寶給卡死了,想想就算是騰訊第一年的微信紅包也沒卡到這種程度,雖然變量更多,但是作為號稱比肩亞馬遜AWS的雲計算公司,又是微信紅包幾年之後,這個結果很顯然不能讓人滿意。

  • 用戶把身家性命押給阿里雲,換來的卻是:實習生的失誤,那麼給賠付嗎?

要知道,用戶使用阿里雲,對於雲計算服務來說,基本上可以說用戶把自己的身家性命都押給了阿里了,但是事情出來以後,結果確是換來一句實習生的失誤,最終又被爆出內部消息,瘋狂打臉所謂實習生失誤的說辭。

我覺得不管是安全策略、內部管理都得提升,技術選型得改變,很顯然阿里雲這不合理,未來的主力方向應該是分佈式解決方案,並且逐步去中性化,加強異地備份以及異地管控,這樣出了問題也不至於全線崩塌。

對於很多企業來說這是幾乎毀滅性的打擊,那麼阿里會對此作出賠付嗎?當然不會!要是賠,阿里巴巴和螞蟻金服賣了都賠不起。阿里雲已經不是第一次這種重大失誤了,真的是要賠的話,阿里真的賠不起,這頻率太高了,而且都是重大失誤。

  • 平時聽吹牛穩如狗,一出問題慌如狗!

其實最怕的就是這種情況,平時被阿里的牛皮吹得暈乎乎的,很多人自己也開始迷信阿里,覺得阿里多麼牛逼,相信很多平時阿里的水軍如果也用的阿里雲這次應該吃虧了吧。任何事情都不是絕對的,阿里強大無比毫無疑問,但是阿里不可能一直不犯錯!

但兄弟們應該可以放心,狡兔三窟阿里雲應該有備份,應該問題不大。

這就是這次事情的全部還原以及看法,當然這裡也給大家提個醒。我覺得大家也可以嘗試一下其他企業的雲服務,比如亞馬遜的AWS,微軟的Azure,國內還有騰訊雲和百度雲,至少以後不要把雞蛋都放在阿里雲這個籃子裡。不然出了問題後悔莫及!!!


EmacserVimer


雲服務行業希望提供給用戶安全值得信賴的產品和服務體驗,但這份安全總是相對的。剛剛走過了10年的中國雲計算,只是剛剛擺脫了稚嫩的面龐,也請給予它足夠的時間去成長!

理性來看,發生在友商身上的案例,不是第一件,也很有可能不會是最後一次,縱使世界範圍內雲計算行業的巨無霸AWS也不能避免出現上述情況。根據公開資料顯示,僅僅在在剛剛過去的2018年,全球範圍內就有數十起雲計算故障事件發生,而事件背後的雲服務商皆為世界知名雲服務商。

對於雲服務商而言,有責任通過技術及管控手段將安全事故率降到最低,但再先進的技術也不能保證萬無一失,與之配套的運維措施便顯得尤其重要!

2019年,雲計算行業將會見證越來越多的傳統企業上雲。

銀行、保險、製造業等均選擇雲計算作為未來戰略轉型升級的重要支撐載體,一改過去主要以互聯網客戶為主的現狀。雲計算產業正在進入廣泛的應用滲透,以及產品迭代升級與客戶拓展交互推進的階段,整體行業正在進入業績逐步兌現的階段。企業上雲已然是大勢所趨!

這裡給上雲企業的幾點小建議:

1、不要把所有的雞蛋放在一個籃子裡,這點對於雲服務行業同樣適用

多雲方案可有效避免由於某一雲平臺故障產生的風險,也是較有效的降據數據丟失風險的手段。

無論是中國還是放眼全球,雲計算市場早已是百花齊放,而這也留給用戶足夠適合自身的選擇。

2、職責明確,把醜話說在前面

這份職責明確,是因為當下雲計算發展整體還不夠成熟,問題發生之後制度還不夠健全和完善,無論是由於雲服務商的問題造成的數據丟失、客戶自身錯誤操作還是其他原因造成的損失都需要在問題之前儘量全的規範說明,這樣一旦發生問題便有據可依。實際上,對於雲服務商和客戶誰也不希望發生安全事故,若出現問題,平臺就應該遵守和按照合同約定,遵守契約精神用更穩妥合理的方式儘快的解決問題。

3、自身安全意識和能力的提升

首先對於很多傳統企業以及初創企業而言,首先需要自身的安全意識,同時需要配置安全管理的專業技術人員。最後,結合自身的實際情況選擇適合自身的上雲方案,包括瞭解適合自身的服務商、選擇哪一種方式(混合雲、多雲方案等)上雲等。

對於雲服務商而言,雲安全這條路2019才剛剛上了正道。無論是自身的產品和安全架構是否穩健、對於每一位客戶的定製化解決方案是否合適、產品的便捷程度和延展性是否足夠、出現問題之後的反饋和處理方式是否妥當等等問題,對於每一家雲服務商而言通往「更安全的雲」這條路沒有終點!

相對的雲安全,需要絕對的努力去實踐,這也是每一家雲服務廠商的職責和使命!


視界雲科技


是阿里的問題,技術、運維上出現了重大的失誤,被人吐槽是應該的。但是很欣賞阿里之後發表的故障說明,坦誠、不找藉口,表達出了足夠的誠意。


公司做大了難免在某些方面會出現問題,相信阿里雲不是第一次,也不會是最後一次出現故障、但對於自己問題的態度是遮掩、否認,還是承擔責任,虛心道歉,這體現了一家公司的價值觀。這點上,阿里真的做的很好,記得之前支付寶的“校園門”事件之後,當時的董事長彭蕾也在第一時間做出了誠懇的自我批評。


我覺得這不僅僅是一家公司所謂的“危機公關”,而是公司是否具有社會責任擔當的體現。阿里雲不僅僅是一項生意,同時也承載了千千萬萬小企業的業務和生命,這點上“敬畏每一行代碼,敬畏每一份託付”應該是阿里雲接下去的工作重點。



高挺觀點


剛剛看完《顛覆者:周鴻禕自傳》,是一本自己吹上天的書,至於網絡上對周鴻禕本人極具爭議的部分,該書避重就輕,或者根本不提,所以說,這本書太一言堂了,不立體,不解渴。

但另一個加深的事實也很明顯:網絡安全太重要了。這也是360迴歸A股的原因,也是不得不迴歸的原因。試想,以後國與國之間的競爭,很大程度上是網絡安全的競爭,如果360是家境外上市公司,估計發展前途有限。

因為阿里雲是一家國內公司,相關國內機構和公司自然選擇它,因此迅速超趕,目前號稱是繼亞馬遜雲,谷歌雲之後的世界第三大雲呢。

阿里雲宕機,我第一想到的是安全問題。雖然至6月27日17時30分,阿里雲稱受影響的產品功能大部分已恢復。

但看宕機事件的各種評論留言,阿里雲一直被吐槽,什麼半年發生一次故障,技術沒那麼強之類。可想而知,號稱繼天貓、螞蟻金服之後,阿里巴巴最具想象力的業務阿里雲,還有眾多技術難關需要克服。

第二個想到的問題是,雲計算怎麼才能更可靠。

我們想當然的把雲服務想成電力服務,開燈就有電,上傳雲端即存在。但突然失靈了怎麼辦,分佈式雲計算要怎麼做,有怎樣更可靠的系統?

至6月28日,並未看到阿里雲發佈這次宕機的具體原因,到底哪出了錯。是自身問題,還是受攻擊的問題。

第三個想到的,阿里雲、華為雲、騰訊雲、百度雲,看來有關雲的戰爭並沒有結束,雖然阿里雲國內市場份額第一,且有各種高調宣傳。

每家巨型互聯網公司,都沒有主動認輸,華為雲以超強技術的認知被不少人寄予厚望。華為雲會不會像智能手機一樣,後來者居上呢?

如果阿里雲發生宕機的問題不解決,在決戰之時,一定會吃虧。就這次宕機,相信在前線搶業務的團隊會受影響,明顯後方未穩固嘛。

但不管怎麼說,在我寫有關阿里巴巴的文章時,阿里雲內部創業的故事還是會佔據重要的筆墨。有關阿里巴巴前瞻性佈局,創業過程中的堅持,及迅速地搶佔市場,都值得書寫。

希望阿里雲的故事能持續,可惜的是,只有內部極少數專家能說出,阿里雲這次宕機是一次低級事故,還是業界普遍忽視的公共性問題導致?

請阿里雲有關方詳細地作答,別糊弄過去,別宕機解決之後就當作沒發生過。


財經作家邱恆明


阿里雲當機在我看來挺正常,因為阿里雲遠沒他自己吹的那麼好!為啥這麼說,因為自己有親身感受!

自己所在公司前年整體搬遷到了阿里雲上,然後過了大概半年左右發生了一次故障,導致網站訪問出現問題,而最終這個故障的緣由是阿里雲這邊出的問題。最後,在經過整整幾個小時的等待後,阿里雲這邊才修復問題恢復正常。一個號稱國內一等一的雲服務提供商,竟然要幾個小時才能恢復服務,竟然沒有預備的臨時方案給客服使用。只能眼睜睜看著自己公司的網站無法正常訪問,不能慢慢等待阿里雲這邊修正故障。

至此事後,對阿里雲算是有了一手的認識,網上吹的再牛逼,實際也就是這樣,遠遠達不到他們自己所吹噓的程度。

這次的當機,只能說徹底暴露了阿里雲的真實水平,還是多多努力多提高下自己的技術和服務,別整體吹水了!

對了,這個問題描述裡提到的IT之家此前(2016年)也因為阿里雲的糟糕服務(主要是穩定性太差),將服務器從阿里雲遷移到了百度雲。IT之家為此還專門發了一篇公告,當年也算是一篇爆文,在朋友圈刷屏。

看來,多年的發展阿里雲仍舊沒太大的改觀,平常吹水吹多了,還真認為自己雲服務國內第一呢,這下自己打自己臉了,也算給自己清醒下,好事!



Lscssh科技官


問題本質分析

1.自動化運維沒有考慮自動回滾恢復。2.代碼沒有進行Code Review導致有“未知代碼”產生。3.測試環境的仿真程度太低。

不要把雞蛋放在一個籃子裡,你可以多個雲計算服務一併使用。



vazi


阿里雲這次事故是可以理解的,做過技術的都知道沒有百分百可靠的架構和系統,然而關鍵問題是問題發生後恢復的速度和對於其他企業損失的可控,這次事件顯然說明阿里雲還有很大提升空間,最後,所有系統都是不斷迭代出來的,能支持國內的就別支持國外的了,如果aws好都用aws,等阿里雲,騰訊雲這些國內企業真的不行了,美國再來一波技術制裁你這些上aws的中國系統都是對方談判的籌碼,所以我的觀點是,阿里雲作為國內最大的雲企業,出現這種問題並造成這麼大的影響,是非常失職的,但是直接判處死刑也有點過了,你不能保證其他雲企業特別是國內的做的比阿里雲更好,給予國內企業多點寬容,一棍子打死會毀了中國的創新和技術的熱情。


分享到:


相關文章: