新闻中心讯 万物互联的时代,云计算数据中心已成为各行各业的必需品。小到个人的数据事务,大到国民经济的各个环节,每天都在持续产出海量数据,维系着社会的正常运转。“工业4.0”和“互联网+”时代的到来,人工智能、物联网、区块链技术的发展,让数据规模量级持续提升。当数据规模数以亿计时,如何安全、高效地对其进行存储、收纳、归类、修改?
复旦大学计算机科学技术学院教授王新团队研发的高可靠高效能的超大规模分布式存储系统技术,以领先的技术方法在数据传输、存储等方面对分布式存储系统进行了优化,为企业提供了构建高效数据存储系统的技术方案,帮助其处理源源不断的海量数据。今年,该技术将亮相2018中国国际工业博览会,向公众展示数据存储中的数学密法。
理论创新:一个灵感点,十二年研究路
过去需要4块存储板的数据,通过高效能的分布式存储只需使用3块,节省了1/4的存储空间;分布式存储在数据备份上打通多个存储空间,更安全可靠,能存储的数据类型也全面多样。作为一种利用网络分散数据存储压力的新型存储模式,分布式存储系统在容量、性能扩展性、访问接口及协议的丰富性上,相比传统的存储系统都有了极大提升。而复旦大学团队联合上海天玑科技股份有限公司等单位研发的分布式存储系统,革新了原先采用直联方式的专业存储系统,形成一个集网络设备、存储单元、应用软件、访问接口和客户端程序等多个部分组成的复杂系统。
据介绍,该研究团队在研究中的最初的启发来源于一张表示网络编码理论的“蝴蝶图”。
“上世纪40年代,信息论之父香农提出,点对点通信存在一个速率上界。就像一条公路,存在一个最大通过车流量。”王新说:“香农公式并没有告诉我们达到通信容量的具体方法,在通信网络中亦是如此。”直到2000年,三位华人科学家提出了网络编码思想,在香农理论的基础上,对信息论进行了一个新的重要拓展,说明在多播网络中,如何利用节点进行编码计算以提高信息传输速率,从而达到网络容量。从简单的直接传输,到利用节点编码计算,网络编码用一张“蝴蝶图”的原理图,实现了传输效率的显著提高。
2006年,以网络编码理论指导存储系统设计的思路刚刚萌芽,复旦大学团队也开始将网络编码理论应用于存储技术研究中,并逐步对再生冗余编码等进行了深入探究。“那年,我们获得了国家863计划项目的支持,非常感谢当时这个项目给予的支持,让我们有了一个好的起点。”
十二年岁月一晃而过,王新带领团队在以网络编码为主要方向的分布式存储技术的研究道路上,孜孜不倦地前行着。跟随着时代和业务需求的变化,持续不断地更新技术,完善理论,致力于研发出更高效、可靠的超大规模存储系统。近年来,团队主要研究的分布式冗余编码、存储修复优化等部分研究成果先后发表在 IEEE/ACM JSAC、IEEE TIT、IEEE TCOM、IEEE INFOCOM、IEEE TOC、ACM MM等专业会议或期刊上,获得了学术界的广泛认可。团队的研究生,也先后多次获得过中国计算机学会信息存储技术年会优秀论文、中国计算机学会大数据学术年会优秀论文、上海市研究生优秀成果(学位论文)、上海市挑战杯竞赛一等奖等荣誉。
“越接近本源的东西,其内涵越简单。”王新这样说道:“编码计算本质上是数学,更多部分是线性代数。一个简单原理,合适地应用到一个领域中,就可能创造出一个全新的技术或应用。”4位导师, 20余位博士/硕士研究生,在这一成果的研究中,他们从一个基本点出发,对存储的各个环节进行了细致的优化。“海量的信息需要上传、归档、备份,也需要调用、修复、更新,因此高效、可靠、便捷可用的属性都是当前数据存储中必不可少的。”目前,团队还在继续寻找提高存储效能、降低开销的更优方案,例如合理处理冷热数据、寻找更好编码、针对不同场景寻找不同的存储方案等。
产品效用:为产业信息化保驾护航
中国人民财产保险浙江分公司、中国移动浙江分公司、中国电信吉林分公司、上海海勃物流软件公司……复旦团队与天玑科技合作开发了诸多数据存储解决方案,PhegData、PBData等面向市场的产品,一经推出就在电信、金融等行业中获得了诸多重要客户的青睐,并获得了良好的市场反响。
今年年初,上海地铁全面实现了手机“刷码进闸”,团队参与研发的PBData产品在帮助上海地铁支持该功能上,助予了重要的一臂之力。由于“刷码进闸”高并发场景下所产生的大量数据会负载业务系统的运行,上海地铁的基础架构只有同时具备强劲的并行计算能力、快速响应能力以及高吞吐,才能支撑数据对后台的冲击。而运用复旦团队技术研发的PBData数据库云平台解决方案产品,能够为企业提供高速InfiniBand与智能缓存的分布式存储,为ACC清分系统提供高性能、高可用的一站式云平台,大大减轻了原有基础架构的压力,使其得以正常运转。
类似于上海地铁集团,目前我国的许多企业在产业信息化转型中都面临着一个矛盾:这些企业都有拥有类似于谷歌、百度、阿里、腾讯的高效数据中心的迫切需求,然而由于自身研发实力不足,多数企业无法拥有自己研制的数据中心,但是采用传统存储系统又无法满足企业日益增长的数据需求。
面对这样的情况,复旦团队与天玑科技合作开发存储解决方案,为企业解决了这一难题。企业只需部署这样的方案,就能自己拥有适合自身需要的高效数据中心,实现高可靠、高安全性、高扩展性的企业私有云存储。对于有大规模的数据存储处理需求,却缺少研发力量的企业来说,这样的服务更具性价比,也为其实现数字化产业升级,提供了技术保障。
上海沪东集装箱码头公司每天都有大量的视频监控需求,稳定的监控系统是其维护物资安全的重要保障。然而,大量的视频数据在存储、调用及应急处理上都对技术有着很高要求,沪东码头公司对此难以自顾。直到2015年其将PhegData超大规模分布式存储应用于公司视频监控系统,配置4个存储节点数,获得288TB容量,才解决了数据存储的大问题,支撑起了其视频监控系统的正常运行。
复旦团队研发的高可靠高效能的超大规模分布式存储系统技术,不仅为企业解决了经营的难题,更在国产自主产品的替代、升级换代中发挥了重要作用,对推动IT系统国产化,保护重点行业网络与信息安全做出了切实贡献。
通向未来:存储的可用性与个性化
从存储的需求维度来看,王新认为除了“高效”传输以外,在“超大规模”“可靠性”“便捷性”上,分布式存储技术还有继续拓展与耕耘的广大空间,提高存储系统的可用性和智能化,是未来发展的重要方向。
数据的超大规模,不仅表现在量级上,还在于存储数据的类别与复杂程度。文本、表格、流媒体,不同类别数据的编码转化需要做到统一而流畅。在存储的可靠性上,如何实现经济又安全的备份,寻找安全备份的最优解,是需要考虑的对象。在便捷性上,存储系统也需要更加“智能”。不同用户对存储的需求各不相同,因此,根据用户的存储使用习惯,调节存储系统的性能,将使存储更经济而高效。在不同场景下将冷热数据进行划分,可以帮助用户快速获取热数据,而将冷数据进行编码节约存储空间,从而实现存储的智能优化。
“经济上讲究成本可控,但其实经济与高质量是存在矛盾的。就像食堂每天应该开设几个服务窗口的问题一样,我们能做的就是找到一个动态的优化方案,寻找一个平衡点,来实现用户体验和存储效能的均衡。”王新这样总结。
在众多学术研究的案例中,都存在从无到有,从有到高效,从高效到智能的发展路径。复旦团队对分布式存储系统的研究,也正遵循着这条发展的道路日益优化,为了实现分布式存储系统的持续优化,孜孜不倦地探索求知着。
谈到项目的未来发展,团队成员周扬帆副教授说:“存储系统这些年来的技术研究,都在解决信息技术发展提出的新需求,针对各种业务场景进行适配和优化。无论从技术发展趋势还是国际国内市场形势来看,未来分布式数据存储技术都具有非常广阔的发展前景。如何设计更好的存储软、硬件架构,面向人工智能应用,实现高效的大数据存储、访问方式,会是我们下一步涉及的领域。”
云计算、人工智能、物联网……互联网发展到今天,数据的规模量级已不可同日而语,未来存储的需求也将持续上升,对技术需求也将愈发具有挑战性。高可靠高效能的超大规模分布式存储系统凭借其优秀的性能与技术,不断满足物联网、大数据等数据中心级应用。
文:李雨蓁
封面制图:张琦
閱讀更多 復旦大學 的文章