03.08 為什麼在別人都使用開源大數據技術時,阿里雲王堅卻堅持自主研發Max Compute?

科技新聞播報館


阿里雲已經成為阿里巴在科技領域有一個奇蹟,當然奇蹟背後必定有太多的艱辛,不完全是身體上的,還有精神上承受的壓力,畢竟這個系統不是簡單的靠人員的集成式開發就能短時間搞定,所以在前期受到非常大的質疑也屬於很正常的範疇,恰逢大數據還在炒概念的階段,馬雲拍板投入數十億開始研發,據後來解密當初阿里巴巴內部分成了兩個派系,支持阿里雲的研發,堅決反對阿里雲的開發,甚至在阿里巴巴內部有人直接提出質疑王堅能不能寫上一行代碼。

整體集團內部瀰漫著對阿里雲研發進度的不信任,甚至很多人喊出來王堅是在騙馬雲的錢,種種才猜測,王堅在2012年的年會上落淚的視頻在網上還能搜到,足以說明當時承擔的壓力有多大,但王堅還是如同他的名字一樣堅強的挺過來了,現在阿里雲的全球市場份額佔到第三,並且完全實現了技術上的自主研發,並且真正突破了傳統意義上的5K技術,備受質疑主要在當時的互聯網環境下拿出這麼多錢來燒段時間內不能見效,那個階段是互聯網高度的紅利期,投入就要見到產出的年代,所以環境的因素很重要,不得不佩服馬雲的決斷力,如果沒有當初資金源源不斷的投入不可能有今天的阿里雲技術,也算是國內科技企業裡面為數不多自主研發的技術產品。

王堅加入阿里正好是阿里技術瓶頸期的時候,業務能力快速的發展,技術能力能不能跟得上都是未知數,整個來講王堅很好的完成了這一使命,其實換個思路來看這個問題,如果不是王堅可能還會有下一個李堅出來做這個事情,畢竟公司的巨輪會一直向前發展,而王堅恰好出現在合適的時機並且把這個事情乾的非常漂亮,但在具體如何去做的時候,王堅的決斷力卻是非常的勇敢,在嘗試了開源的大數據之後發現根本不可能完成任務,於是果斷開始自主研發,與其說是自動主張倒不如說成是被逼的,強大的壓力下產生無盡的動力,任何有技術含量的東西大家開始都不會太認可,如同開始大家在網上購物都會覺得可能是騙子,萬一我交錢了對方不發貨怎麼辦,看看現在購物的人很少擔憂這個事情發生,整個社會的價值觀已經高度認可這件事情。

阿里也是在阿里雲有了突破之後開始更加註重人才的培養,並且搞了個達摩院收集全球優秀的科學家一起以企業的方式產生各種創新技術,可以遇見未來阿里會帶給國人更多的技術突破,未來就是人才競爭的時代,誰擁有足量多的人才誰就能有更多的話語權,隨著國內軟件氛圍進一步提升,相信也會有更多自主性的技術產生。

其實對於王堅來講更應該感謝阿里決策層的堅決支持,玩雲計算沒有足量的資金支持不可能做出個樣子,而王堅很好的做出了表率,最近也看到王堅離開了阿里雲,事情的真假不是很清楚,對於個人來講已經在人生的道路上,增添了濃厚的一個色彩,至於後續是不是能夠繼續執掌阿里雲其實這都不是其個人要談的事情,這已經是阿里高層來決定的。

作為一個技術人員還是非常佩服王堅在如此壓力下,還能保持清晰的頭腦做出大膽的決定,並且把技術落地,也證明了一件事,中國的軟件人才一樣能做出讓世界矚目的事情,無形之中也增強自己的信心,對於阿里堅持自我研發道路確定更強的信心。

希望能夠幫到你。


大學生編程指南


我覺得,王堅在阿里雲的發展過程中,就像是大海航行中的舵手一樣,引領阿里雲不斷前進。

不得不說,王堅是非常有遠見的,他很早就意識到了只有自主研發的重要性,所以堅持要走自主研發的道路。

早在2007年,阿里巴巴就面臨著非常嚴峻的考驗,因為系統無法滿足集團不斷增長的數據處理需求,於是阿里巴巴從微軟亞洲研究院招來王堅博士,解決整個集團的算力問題。

當時,市面上基於開源技術的Hadoop集群,在可控性、安全性上存在隱患,可提供的服務也有很大的侷限性。雖然當時大家都在用Hadoop集群,但王堅清楚地認識到了其規模的侷限,決定要自主研發一套大數據計算系統,也就是MaxCompute。

自主研發的道路上肯定會面臨不少困難,但當時無論是基於Hadoop搭建的大數據系統還是自研的大數據計算平臺,都未能跨越5K 的集群規模的大山。

經過不懈努力,在2013年8月,王堅終於帶領團隊解決了這個難題,不僅讓新的基於飛天5K的MaxCompute生產集群規模達到5000,還實現了跨機房,並經受了整機房斷電的嚴苛考驗。

這也意味著,阿里成為了世界上為數不多具備5K計算能力的公司。更重要的是,阿里還成為了業界首家對外提供5K計算能力的公司。

現如今,作為單集群超過1萬臺服務器,數據規模更是達到EB級的大數據計算平臺,MaxCompute已經成為全球領先的大數據計算平臺。

阿里巴巴集團的核心業務都是由MaxCompute提供支撐。同時,阿里雲還將這種大數據處理能力對外開放,讓小型公司只需要花幾百元就可以分析海量的數據。

現在想來,如果十年前王堅沒有堅定地走自主研發的道路,也許就不會有MaxCompute的誕生,阿里巴巴和其他企業也都無法享受到MaxCompute帶來的便利了,忍不住要給王堅的遠見點贊!


一個退休的老者


他要麼不懂大數據.要麼很懂大數據...

...

1.大數據的流程是:先確定結果.再收集數據.最後根據結果和數據選擇計算方法...

...

這個道理很簡單吧....

我們以印度為例...印度總理要求2017年印度增長率要高於中國.也就是7%左右.也就是大數據的最終算出的結果先確定好...之後是手機數據.什麼地攤.牛糞都做估價...之後按照GDP一算還是不如中國高...那就換一種算法用PPP..這樣就達到7%了...這樣所有印度人民包括總理都誇你算的準...

...

國際之間都這麼玩...就更別提各種企業了...

...

一定要記住大數據是輔助決策.而不是指揮決策...你的工作是用大數據證明領導的決策對.而不是告訴領導該怎麼做...領導不需要你告訴他怎麼做...怎麼做是他的自由.他的愛好...你教他怎麼做那就是觸動逆鱗了...

...

2.大數據的特點是什麼?

a.數據量特別大.無法追溯驗證.

b.數據來源特別雜.無法追溯驗證.

c.數據算法多.正確性無法驗證.

總之.大數據的特點就是無法追溯驗證...

這也是大數據強於傳統統計的優勢...

因為傳統統計是抽樣.理論實際非常準確...

大數據是全量.理論上比抽樣準確...

實際上操作空間極大...

我們其實不需要準確的統計...

這個道理很簡單吧...

...

3.由此我們就明白一件事...

大數據和Hadoop Spark啥的有關係麼?

毫無關係...

Hadoop Spark只不過是大數據PPT上一個角落裡非常不重要的兩個詞...

...

大數據其實根本就不需要任何專業工具計算!!!

Excel足矣...

...

a.他可能不懂大數據.所以痴迷於工具..

b.他可能很懂大數據.知道工具沒用.所以自己瞎編一個.聽起來很牛逼的樣子.

c.我也發佈一個大數據工具.MinCompute.也是我幾分鐘辛勤耕耘編寫的.你也來一個.不就起個名麼.你也可以的...


ACME63610374577


阿里堅持自主研發 Max Compute 技術,而不是使用開源大數據技術,個人認為原因有三點,一是阿里雲既然未來要做雲計算,那就要和其他公司要有技術優勢以及技術壁壘,這樣才能競爭過其他的公司。

二是完全依靠大數據開源技術有一定缺陷,開源大數據技術無法全部滿足阿里內部真實需求,技術上未來也很難滿足。

三是為了打造適合阿里業務場景以及中國互聯網公司的雲計算平臺,自己掌握核心技術,便於未來的技術擴展和功能迭代開發。

01

想要將雲計算做大,必須要有自己的核心技術優勢,如果阿里使用開源大數據技術,那麼和其他公司技術差異就很小。

雲計算不僅僅是國內互聯網公司在做,同時在國際上,也有很多厲害的雲計算公司,比如亞馬遜、Google、微軟等等,而國內有百度、騰訊也在做。

開源大數據技術由於開源性,每個公司都可以對其使用,如果你基於開源大數據技術來做雲計算,大家都能夠使用大數據開源技術,你的大數據產品和開源大數據組件類似,那你怎麼能夠吸引其他公司使用你的雲計算產品呢。

如果你沒有自己的核心技術,其他公司肯定更願意使用開源大數據技術,這樣更能降低其成本。所以阿里自研 Max Compute,充分的展示其前瞻性。這樣也有了自己的核心技術,尤其是對於雲計算來說,在某些場景,對於其他公司才更有吸引力。

02

開源大數據技術雖然數據體量以及集群機器數目的上升,也會有一定缺陷。

開源大數據技術本身有一定技術缺陷,這種技術缺陷可能在小的業務場景是無法復現的,但是一旦數據體量上來之後,可能就會有很多未知的問題,阿里也不敢將自己的核心業務運行在其上。

比如 Hadoop 集群來說,對於 HDFS 分佈式文件系統,主要採用主從架構設計,NameNode是主節點,內部有很多元數據存儲在內存中,DataNode是從節點,主要用來存儲數據。由於 NameNode 內存中存儲 DataNode以及文件塊的映射的元數據,當機器規模以及數據體量非常大時,NameNode 如果掛掉整體恢復速度會非常慢,這就可能影響到線上業務。所以阿里自研 Max Compute ,在開發的時候,也考慮和解決了一些這些技術問題,使得大數據平臺更加穩定。

03

個人想法

個人之前使用過 MaxCompute,雖然阿里自研 MaxCompute,但整體的使用和代碼開發還是和開源大數據組件進行兼容。比如你在上面開發一個離線的任務,整體的代碼其實和 Hive 的代碼非常類似,這使得其他原來使用 Hive 的數倉同學,也能夠快速的使用 MaxCompute進行研發。

所以阿里在自研的同時,也考慮到和開源大數據技術保持兼容性,也吸收了開源大數據技術優點,並不是完全閉門造車。取開源大數據技術之精華,對其不好的地方通過自研技術進行解決,這點阿里雲做的還是很贊。

我是Lake,專注大數據技術原理、人工智能、數據庫技術、程序員經驗分享,如果我的問答對你有幫助的話,希望你能點贊關注我,感謝。

我會持續大數據、數據庫方面的內容,如果你有任何問題,也歡迎關注私信我,我會認真解答每一個問題。期待您的關注


Lake說科技


前幾年主流的開源雲架構主要就是openstack,從架構上看,這實際上就是一個python工具箱和erlang消息隊列混搭的萬能方案,其集群管理能力基本上就是erlang/otp的分佈式能力。

雲計算所涉及的主要問題,erlang實際上在2003年開源之前就已經解決了,而且,對這些問題的研究,在上個世紀八十年代日本人吹噓要搞新一代計算機架構時,愛立信就開始了,erlang就是為此而生的。

所謂的阿里巴巴的自主研發的雲操作系統maxcomputer,因為沒有了解具體實現的途徑,所以不敢評論,它或許比openstack好,但是不大可能達到erlang那樣的優雅,和思想深度。


莫折念生


可以說,將核心技術掌握在自己手裡的阿里雲不僅在國內雲市場常年穩居第一的市場份額,也通過基於飛天的應用在各行各業迎來了大爆發。阿里云為天貓構建了全球最大規模的混合雲,沒有自研的飛天是無法做到的。




君有嘉儀11


很簡單,因為開源的產品支持不了阿里的體量,很多開源中間件在阿里都是被修改過的,以便更好的支持阿里的業務。比如Oracle,就算你部署的再好,優化的再好任然不能滿足業務需求,一晚上連張報表都跑不出來。雲也是一樣,管理5000個節點都管理不好,有怎麼支持後續的業務呢


彼得羅829


重複造了一個輪子吧。如果說創新應該提一下google,大數據的一套應該是google搞起來的,big table,gfs,mapreduce都是開山之作。


機器不會學習


還是習慣稱為odps,感覺阿里雲要自建,主要是為了彈性計算和大數據量上需求,由於需求比較特殊和迫切,因此開源套件很難適配,所以通過odps,ads和datahub的組合,滿足淘係數據的多場景應用。


anyue80


相比來也是在實踐當中,意識到沒有真正掌握核心技術所帶來的種種問題,所以才能下狠心投資技術研發吧


分享到:


相關文章: