誰說硬盤壞了就要丟數據的?

誰說硬盤壞了就要丟數據的?

今天我們繼續聊一聊存儲的問題

如果你問IT行業的老鳥,存儲跟其他IT產品最大的差別是什麼?他一定會告訴你:“存儲產品的第一準則就是:不能丟數據!”

試想一下,一家創業公司,千萬元級的長期推廣導流帶來的精準註冊用戶、內容數據一夜之間說沒就沒了,這無異於給企業割喉一擊。在雲時代,數據就是企業組織的立身之本,所有的生產、營銷活動其實都是在圍繞數據做文章,每個企業都是週而復始的在產生數據、保存數據並且分析數據,努力在數據中挖掘更大的價值。這當中計算和網絡設備即使出了問題,很多時候重啟一下繼續用就行,影響了工作進展,只會讓用戶感到不愉快,對於企業而言不算致命。作為數據的最終歸宿,存儲產品則不一樣,它必然是一個兜底的角色,機房可以因為停電、自然災害等暫停運營,但絕沒有任何一家企業願意聽到‘數據找不回來’這種結果。

人在江湖漂,哪能不挨刀?其實老江湖們都明白一個道理:挨刀是常態,但決不能丟命!這句話翻譯成存儲行業的語言,那就是:存儲作為電子和機械部件組成的複雜系統,沒有哪個部件是永不失效的,

我們必須從技術上來解決部件失效(硬盤、電源、接口卡等等)導致的任何一個丟失數據的可能性問題。

跟那些在努力把用戶數據變現,為自己產生價值的互聯網型公司不一樣,華為存儲把提高可靠性作為產品設計的最重要原則,幫助客戶消除企業長期發展所面臨的數據安全的擔憂。

以遼寧移動雲資源池項目為例,該項目從2014年初開始部署華為雲存儲,超過10PB容量,數百個節點,至今已經安全無故障運行超過1650天。華為存儲是如何保障可靠性的呢?從部件、節點到集群和數據中心級別的可靠性,華為的雲存儲做了很多事情,細細講來,三天三夜恐怕都說不完。

誰說硬盤壞了就要丟數據的?

今天我們就重點談三個點:

硬盤如此嬌貴,如何幫它做好日常保養?

亞健康檢測,做好“體檢”,防患於未然

眾所周知,傳統硬盤是一個精密設備,稍有震動、溫度變化,甚至空氣汙染都會導致硬盤出現故障。既然是一個複雜系統,那麼對硬盤的馬達、介質就必須有完善的監控和管理措施。華為FusionStorage雲存儲提供有效數據硬盤掃描功能,週期性對硬盤有效數據進行讀取掃描,如果掃描發現壞道,則嘗試進行“讀修復”修復故障扇區。如果該數據的所有冗餘副本都同時不可用,則會標記壞扇區併產生告警,提示系統在應用層進行數據修復產生訪問錯誤。華為雲存儲系統還能通過對硬盤各項指標以及IO處理能力的監控,識別出硬盤是否處於亞健康狀態,並自動將亞健康的硬盤進行數據重建後移除集群。

誰說硬盤壞了就要丟數據的?

寫到盤上的數據不對,怎麼解決?

DIF數據完整性校驗,及時糾錯,讓存下來的數據“不走樣”

數據處理過程中,經過了多個部件、多種傳輸通道和複雜的軟件處理,其中任意一個錯誤都可能會導致數據錯誤。如果這種錯誤無法被立即檢測出來,而是在後續訪問數據過程中才發現數據已經出錯。這種現象叫做靜默數據破壞(Silent Data Corruption)。由於靜默數據破壞無法實時檢測出來,導致被破壞的數據恢復難度很大,甚至不可恢復。

產生靜默數據破壞的原因有很多,主要有以下幾類:

01

硬件故障:內存、CPU、硬盤、FC或SAS鏈路等。

02

Firmware錯誤:HBA、硬盤等。

03

軟件bug:產品軟件、操作系統、應用程序等。

誰說硬盤壞了就要丟數據的?

華為FusionStorage雲存儲基於ANSI T10 PI(Protection Information)標準提供的方法來校驗訪問存儲系統過程中的數據完整性。在系統內部設有多個PI校驗點,對IO路徑上的數據進行完整性檢查,並對錯誤進行實時糾錯,確保寫下去的數據不會出錯。

硬盤罷工,數據怎麼辦?

快速重構,讓數據問題極速癒合

電影“功夫”中有句話很是經典:“天下武功,唯快不破”。當硬盤真的罷工了,我們唯一能做的事情就是儘快恢復數據。華為FusionStorage雲存儲採用基於底層塊級虛擬化的分佈式打散技術克服了傳統RAID重構的目標盤(熱備盤)性能瓶頸,使得重構數據的寫帶寬不再成為重構速度的瓶頸,恢復1TB數據僅需15分鐘,降低數據丟失的風險。

誰說硬盤壞了就要丟數據的?

單盤故障的數據快速恢復:多節點、多硬盤並行重構


想從事AI行業,想快速通過學習AI取得高薪?


其實並不複雜,


只需關注公眾號 小碼聰聰 ,回覆AI


即可領取你的專屬秘籍


誰說硬盤壞了就要丟數據的?


分享到:


相關文章: