靜默數據損壞,數據備份的致命殺手

靜默數據損壞,數據備份的致命殺手

數據損壞只是一種難以感知的數據改變。隨機出現壞位或不可恢復的讀取錯誤一般不太可能導致應用程序失效或無法恢復。但是,數據破壞隨處可見。

瞭解數據靜默破壞

當數據損壞未被檢測到時,它將變為靜默數據損壞,並且成為應用程序的數據一致性的高風險。當這些數據被備份並且未被發現時,那就真正會造成了數據完整性和恢復問題。

硬件和軟件都會在數據路徑中引入數據錯誤。在硬件方面,如磁頭故障,噪聲數據傳輸,電子干擾問題,介質老化和磨損都會引入錯誤。如同20世紀50年代科幻電影所述,宇宙射線都可能導致DRAM數據錯誤(存儲位翻轉)。

在軟件方面,編碼錯誤可能會破壞操作系統,文件系統,固件以及計算堆棧中處理數據的相關數據完整性。

數據錯誤問題有多大呢?

早在CERN的研究表明,平均每1016位中就有一次靜默錯誤; 在最近的研究數據也展示了類似錯誤概率。在NEC報告中,實驗即使使用數據完整性檢查技術,也在磁盤陣列上報告中也出現了靜默讀取失敗,當將錯誤數據寫入應用程序,從錯誤記錄到應用程序都引入各種錯誤。

近年來,NetApp研究了超過一百五十萬個生產磁盤。他們確定了超過400,000個靜默數據損壞,約佔所研究總數據的13%。錯誤檢查技術檢測到了370,000個靜默數據損壞(檢測技術精準度已經很高),但仍有30,000個未檢測到的錯誤。當在實驗驗證時,NetApp的測試軟件就捕獲了這些錯誤數據,但是在生產環境中,這30,000個錯誤數據將留在磁盤上並進入備份系統,直到需要進行恢復失敗時才會被發現。

靜默數據損壞與較大的磁盤容量無關:隨著磁盤容量變化,錯誤率沒有顯著變化。這意味著存儲在高容量磁盤上的數據相應地靜默損壞構的威脅也更大。在現代磁盤中,隨著磁盤容量增大,1/1016錯誤率也會倍增多次,因為這些磁盤存儲的數據量更多。

我們來做一個數據庫備份。備份站點於保護重要數據,RPO為15秒。當數據庫崩潰恢復備份數據時,發現備份中存在數據損壞並且已經存在超過3天。那麼這3天的近乎連續的備份數據,現在都已經是損壞的數據備份。

不要認為把數據備份到雲上,就能神奇地解決此問題。數據上雲意味著備份將保存到提供商的SSD和硬盤驅動器介質中,這些存儲介質的錯誤率與任何其他存儲介質完全相同。

但是,一些雲服務提供商積極談論防範雲中的靜默數據損壞解決之道。如eFolder建議,在與在線雲存儲供應商交談時,需要詢問這個問題以及解決方法,包括提供商在其存儲介質上使用的技術以及在雲網站上備份時使用的技術。例如,Amazon S3運行數據校驗實現網絡傳輸和數據在靜止期間的保護。

數據保護和完整性檢查

保護備份完整性的第一步應該是在生產存儲完成,防止錯誤進入備份存儲。如如採用ECC和CRC校驗; 在這一方面,有些供應商已經走得更遠,如保護IO流。例如,EMC Isilon OneFS在數據在網絡傳輸時,對文件系統內的大數據進行驗證。在生產系統保護磁盤陣列數據,防止錯誤進入備份階段。另外,超融合供應商Nutanix通過運行靜默數據完整性檢查,防止靜默損壞的數據進入虛擬化管理程序(Hypervisor)。

由Sun開發的開源ZFS和Microsoft的彈性文件系統(ReFS)通過本地端到端校驗和和完整性檢查保證數據備份一致性。在IO路徑中,糾錯碼(ECC)和循環冗餘校驗(CRC)將捕獲大多數錯誤。另外,通過校驗和RAID類型技術也有助於捕獲錯誤。RAID通常保護存儲陣列,而數據保護供應商Unitrends、專業存儲提供商都具有RAID 6和類似兩個校驗保護。

另外,修復IO流中的錯誤可保護應用程序,存儲介質和備份數據。因為如果有太多損壞的數據保存到備份系統中,那麼防止數據丟失的最後一道防線也會被破壞。如果備份數據發生錯誤,那麼將永遠無法恢復正常的數據副本。

如何保存數據備份?

關於數據備份一致性問題,另一個方法是選擇一個備份產品,該產品可以檢查備份環境中引入的損壞。

大多數備份產品都內置了恢復檢測功能。但是,恢復測試和一致性保證並不意味著數據完整性一定得到保證。提供數據錯誤檢查以及恢復保證的存儲供應商包括Intronis,Asigra,Veeam和Unitrends等。

Intronis Cloud Backup and Recovery使用本地安全目錄在啟動備份或恢復之前驗證文件完整性。使用經過驗證的副本,Intronis會掃描駐留在每個遠程數據中心的備份副本,以驗證Intronis存儲中的數據完整性。Intronis會自動使用經過驗證的副本替換損壞的備份。

Asigra內置數據完整性檢查到企業備份產品中。檢測過程在後臺自動運行,並監視備份的完整性。在數據發生損壞的情況下,Asigra找到一個好的原件並恢復損壞的文件。

Unitrends提供一體化企業備份和連續性解決方案。在VM備份前端,當Unitrends從生產設備傳輸數據到異地備份時,它會創建原始文件的校驗和。當後續的增量被寫入備份設備時,UEB運行校驗和以驗證新數據是否與舊數據完全匹配。

Veeam SureBackup驗證備份數據的完整性和可恢復性。其完整掃描操作會檢查諸如數據靜默翻轉等之類的常見錯誤,並使用驗證過的備份數據替換損壞的數據。

英文鏈接:

http://www.enterprisestorageforum.com/storage-management/silent-data-corruption-the-backup-killer.html

針對靜默數據錯誤,如何證數據一致性?

從CDP解析數據備份和副本管理技術


分享到:


相關文章: