谁说硬盘坏了就要丢数据的?

谁说硬盘坏了就要丢数据的?

今天我们继续聊一聊存储的问题

如果你问IT行业的老鸟,存储跟其他IT产品最大的差别是什么?他一定会告诉你:“存储产品的第一准则就是:不能丢数据!”

试想一下,一家创业公司,千万元级的长期推广导流带来的精准注册用户、内容数据一夜之间说没就没了,这无异于给企业割喉一击。在云时代,数据就是企业组织的立身之本,所有的生产、营销活动其实都是在围绕数据做文章,每个企业都是周而复始的在产生数据、保存数据并且分析数据,努力在数据中挖掘更大的价值。这当中计算和网络设备即使出了问题,很多时候重启一下继续用就行,影响了工作进展,只会让用户感到不愉快,对于企业而言不算致命。作为数据的最终归宿,存储产品则不一样,它必然是一个兜底的角色,机房可以因为停电、自然灾害等暂停运营,但绝没有任何一家企业愿意听到‘数据找不回来’这种结果。

人在江湖漂,哪能不挨刀?其实老江湖们都明白一个道理:挨刀是常态,但决不能丢命!这句话翻译成存储行业的语言,那就是:存储作为电子和机械部件组成的复杂系统,没有哪个部件是永不失效的,

我们必须从技术上来解决部件失效(硬盘、电源、接口卡等等)导致的任何一个丢失数据的可能性问题。

跟那些在努力把用户数据变现,为自己产生价值的互联网型公司不一样,华为存储把提高可靠性作为产品设计的最重要原则,帮助客户消除企业长期发展所面临的数据安全的担忧。

以辽宁移动云资源池项目为例,该项目从2014年初开始部署华为云存储,超过10PB容量,数百个节点,至今已经安全无故障运行超过1650天。华为存储是如何保障可靠性的呢?从部件、节点到集群和数据中心级别的可靠性,华为的云存储做了很多事情,细细讲来,三天三夜恐怕都说不完。

谁说硬盘坏了就要丢数据的?

今天我们就重点谈三个点:

硬盘如此娇贵,如何帮它做好日常保养?

亚健康检测,做好“体检”,防患于未然

众所周知,传统硬盘是一个精密设备,稍有震动、温度变化,甚至空气污染都会导致硬盘出现故障。既然是一个复杂系统,那么对硬盘的马达、介质就必须有完善的监控和管理措施。华为FusionStorage云存储提供有效数据硬盘扫描功能,周期性对硬盘有效数据进行读取扫描,如果扫描发现坏道,则尝试进行“读修复”修复故障扇区。如果该数据的所有冗余副本都同时不可用,则会标记坏扇区并产生告警,提示系统在应用层进行数据修复产生访问错误。华为云存储系统还能通过对硬盘各项指标以及IO处理能力的监控,识别出硬盘是否处于亚健康状态,并自动将亚健康的硬盘进行数据重建后移除集群。

谁说硬盘坏了就要丢数据的?

写到盘上的数据不对,怎么解决?

DIF数据完整性校验,及时纠错,让存下来的数据“不走样”

数据处理过程中,经过了多个部件、多种传输通道和复杂的软件处理,其中任意一个错误都可能会导致数据错误。如果这种错误无法被立即检测出来,而是在后续访问数据过程中才发现数据已经出错。这种现象叫做静默数据破坏(Silent Data Corruption)。由于静默数据破坏无法实时检测出来,导致被破坏的数据恢复难度很大,甚至不可恢复。

产生静默数据破坏的原因有很多,主要有以下几类:

01

硬件故障:内存、CPU、硬盘、FC或SAS链路等。

02

Firmware错误:HBA、硬盘等。

03

软件bug:产品软件、操作系统、应用程序等。

谁说硬盘坏了就要丢数据的?

华为FusionStorage云存储基于ANSI T10 PI(Protection Information)标准提供的方法来校验访问存储系统过程中的数据完整性。在系统内部设有多个PI校验点,对IO路径上的数据进行完整性检查,并对错误进行实时纠错,确保写下去的数据不会出错。

硬盘罢工,数据怎么办?

快速重构,让数据问题极速愈合

电影“功夫”中有句话很是经典:“天下武功,唯快不破”。当硬盘真的罢工了,我们唯一能做的事情就是尽快恢复数据。华为FusionStorage云存储采用基于底层块级虚拟化的分布式打散技术克服了传统RAID重构的目标盘(热备盘)性能瓶颈,使得重构数据的写带宽不再成为重构速度的瓶颈,恢复1TB数据仅需15分钟,降低数据丢失的风险。

谁说硬盘坏了就要丢数据的?

单盘故障的数据快速恢复:多节点、多硬盘并行重构


想从事AI行业,想快速通过学习AI取得高薪?


其实并不复杂,


只需关注公众号 小码聪聪 ,回复AI


即可领取你的专属秘籍


谁说硬盘坏了就要丢数据的?


分享到:


相關文章: