普林科技:让数据创造价值

随着互联网行业蓬勃发展,网上数据量呈指数级上升态势。据统计,过去人类生产的所有印刷材料的数据量总是200PB(约2.1亿GB),而在如今的互联网上,一天产生的数据量就可以达到920PB(约9.6亿GB)。堪称天文数字的数据量对数据存储、处理、分析都构成了挑战,也由此催生出一大批与此相关的技术服务公司。

成立于2014年5月的北京至信普林科技有限公司(以下简称“普林科技”),就是这样一家专业从事大数据建模与分析,为金融、通信、交通物流、医疗卫生等行业客户提供数据应用服务的高新技术公司。

普林科技:让数据创造价值

普林科技总经理王亦伦

发挥数据驱动力

过去三年多,大数据行业迎来了爆发式增长。2015年9月,国务院印发的《促进大数据发展行动纲要》让大数据这一概念进一步广为人知,并被提升到了国家战略的高度。

谈到大数据的特性,业界通常将其归纳为“4V”:Volume,数据体量大;Variety,数据种类多样;Velocity,实时性要求高;Value,商业价值大。对此普林科技认为,当量级庞大、种类多样、实时传输的全量数据通过某种手段得到有效利用并创造出价值,甚至能进一步推动商业模式、社会模式发生变革时,大数据才真正诞生。

普林科技一直在致力于挖掘大数据的价值,它把自己定位为一部引擎,而数据是汽油,通过大数据建模分析技术,引擎把汽油转化为动能,驱动企业提升效率。例如,普林科技与知名美国网贷平台Lending Club合作开展的风控模型优化研究,就可以基于借款者的自然人信息、工作信息、历史借贷信息等数据建立数学模型,预测出现坏账的概率,以此建立更加准确、稳定的借款人分级系统。

在海外,基于数学模型和计算机算法的大数据分析技术已日臻成熟,并被应用到社会经济生活中的方方面面。相较而言,国内对大数据分析的认知还停留在基本的统计分析和图表呈现阶段,数据的使用者还没有真正认识到机器学习等先进的大数据分析手段蕴藏的价值。这既是国内外大数据领域存在的一个很大不同,也是目前导致大数据价值挖掘在国内没有得到广泛应用的一个重要的制约因素。反过来看,这样的大背景恰恰为普林科技这样的公司提供了发展机遇,它将海外成熟的大数据建模分析技术引入国内,力求用数据刻画规律,让数据创造价值。

普林科技拥有一流的科研团队,其中,首席科学家鄂维南是中国科学院院士、北京大数据研究院院长,在南加州大学洛杉矶分校攻读博士学位期间,师从著名应用数学家Bjorn Engquist教授,曾获国际工业与应用数学协会颁发的科拉兹奖、首届美国青年科学家和工程师总统奖、冯康科学计算奖及美国工业与应用数学协会颁发的克莱曼奖等国际性重要科学奖项。近十年来,鄂维南一直致力于中国大数据事业的务实发展。为了实现大数据技术落地,他组建了北京大数据研究院,致力于建成国际一流的大数据教育、科研创新和产业化平台。同时,他也是国家重点基础研究发展计划(973计划)“非结构化数据研究”项目的主持人。

除了鄂维南教授,普林科技的其他团队成员也都有世界顶尖高校教育背景及顶级大数据企业工作经历,研究领域涵盖应用数学、计算机及金融领域等等。CTO王亦伦是美国莱斯大学计算与应用数学系博士,曾任美国康奈尔大学应用数学中心研究员,从事机器学习算法研究,研究领域为稀疏优化和统计计算在机器学习和类脑智能和大数据科学领域的应用。

普林科技:让数据创造价值

普林科技CTO王依伦在微软加速器·北京第八期Demoday活动中讲解大数据分析的应用案例。

普林科技:让数据创造价值

2018年1月20日,普林科技等企业与京东云在京东总部召开的京东云生态伙伴沟通会上签署战略合作协议

落地能力出众

目前,大数据应用落地最重要也最普及的行业当属金融,尤其是征信领域。传统的信贷征信技术虽然已发展得比较成熟,但仍存在明显的缺陷和不足,互联网金融的爆发式发展则让这些问题暴露得更为明显。

国内的P2P信贷平台及类似的贷款机构往往掌握了借款人很多基本信息,如住房数据、私家车数据、通讯数据、家庭成员数据等。同时,各大电商拥有海量网购数据,各大App运营者拥有大量移动互联网应用数据,各类社交网站拥有大量社交数据。如此多的数据,如能配合以优秀的算法和模型,能够获得更好的风控效果。但数据领域的发展现状给大数据技术的发展造成了不小的障碍,存在的主要问题包括可利用的数据量激增、用户特征稀疏、风控目标繁杂等。

基于小数据和经验的传统风控方法,面对大量且动态的风控目标需求时是无能为力的,因此,大数据技术进入金融领域也成为了一种必然。王亦伦表示,普林科技很早就涉足了金融风控,2014年与Lending Club在建立平台风控模型方面的合作就是代表性案例。更让他引以为傲的是,目前普林科技是国内唯一一家进驻中国人民银行征信中心做数据分析的团队。

王亦伦介绍,全国用户的信用数据都要汇总到央行的征信中心,包括个人有多少张信用卡、办了多少笔贷款等等。这些数据都可以用来评估个人信用,央行征信中心也希望推出信用分数报告系统,客观全面地反应金融用户的信用水平。此前,这项业务是由美国的一家公司提供服务,但其使用的逻辑回归算法不符合中国的国情,导致作出的用户信用评价难以实际应用。比如,根据以往的国家政策,农民的贷款未按期归还不属于信用违约,但是也会留下未还贷记录,按照这套模型的算法,这类农民只能获得很低的信用分数。

普林科技的技术团队进驻央行数据中心后,在对业务加深理解的基础上,运用了更新的机器学习算法为做出了分析模型。评估银行风控模型的技术指标中有一项是KS值,其取值范围在0和1之间,KS值越大意味着模型的预测准确性越高。通常情况下,银行风控模型的KS值为0.3~0.4,而普林科技为央行做的模型KS指标达到了0.78。

王亦伦还介绍了普林科技为金融财经客户研发大数据应用的典型案例。其中,一个是为银行做的小微贷风险预警。“我们会给对方做一个订单模型,根据行里已有的专项规则以及我们这边专家提出的一些建议,构建一个规则库。贷款客户引流进来后,信息首先会经过这个规则库并形成一个分数,银行就能知道这个客户是否属于有价值客户。我们还会利用这个分数和其他一些指标做一个映射,来决定给他的贷款额度、贷款利率和还款周期。”

在发展大数据征信技术、完善征信体系的过程中,与客户隐私保护有关的问题逐渐显得突出。要保护客户的隐私,就要对数据进行加密。这样的数据加密必须同时满足两个方面的要求,一是确保数据加密后就不再暴露隐私,二是加密后的数据要保留其原有的价值,不能因为加密而导致数据价值贬值。普林科技的数据科学家一直在这两个方面作着深入研究。

另一个案例是国家发改委需要对宏观经济运营情况进行预测,针对这个需求,普林科技从数据的收集、分析、破解和打通等多个环节入手,并较好地解决了数据抓取和模型验证两个技术难点。

“国家发改委做宏观经济监控预警,这不是一个普通项目。在这个架构体系中,还是利用传统的指数来反映情况,区别是指数利用的数据不一样了,不再是用以往获得的统计数据,而是用一些大数据,比如房价、用水量、土地占有量、交通、物流这些大数据。”王亦伦介绍,“传统的指数统计方法没有预测能力,只能总结一下过去存在哪些问题,而且以往发布的统计指标都是滞后的,有的滞后一个月,有的滞后两个月,这起不到监控预警的作用。用大数据获取指数,不仅能做到实时监控、实时发布,还能对未来1~6个月的发展趋势作出预测,这是一个很大的优势。”

大数据产品做出来之后,还必须围绕特定领域进一步精心打磨。王亦伦介绍说:“大数据的挑战在于,数据量变大了,每个单项数据与整体指标的关联性都很弱,这非常考验技术,其中的难点是数据抓取和模型验证。结果出来的时候,发改委的人要去看实际运行跑起来的效果怎么样,这需要比较长的周期。做出来的东西还要反复验证,现在做出来的只是一期模型,后面发现问题作出修正就会有二期模型。”

在大数据应用的落地方面,普林科技聚焦在为细分行业提供解决方案上,如消费领域的精准营销、工业和能源领域的故障预测和智能运维,以及金融领域的风控等。聚焦细分领域的策略,让普林科技得以研发出大量更有针对性并具有行业深度的方案和产品。目前,它已与中国人民银行征信中心、大成基金、中证信用增进股份有限公司、三大电信运营商、方正集团、301医院、北京大学、北京交通信息中心、北京市质监局等各领域的代表性机构达成了合作,并在上海、南京、深圳、贵阳、成都等地建立了分公司,从而提高了直达客户现场、进行深入调研并探讨方案的效率。

普林科技:让数据创造价值

2016年12月12日,北京大数据研究院与北京供销大数据集团举行战略合作签约仪式,共同打造京津冀一体化国家级大数据中心项目。

普林科技:让数据创造价值

2017年8月27日,北京大数据研究院保险大数据研究中心在北京大学揭牌成立

核心竞争力

“针对每一个行业领域,我们都会聚焦其中的若干细长分支领域做深层次的挖掘和分析。我们的特色或者说优势就在于能对一领域挖得很深,聚焦其中的核心关键问题和细分领域,提供完整的、能够落地的大数据解决方案。”王亦伦介绍。

基于大量的项目经验,普林科技不仅形成了一个个解决方案,还研发出了标准化产品,例如,在数据采集方面推出了“云爬虫”;在数据可视化方面,在建立核心用户画像和建模分析基础上,推出了以可视化方式呈现的标准产品。这些标准化产品都为公司的可持续发展奠定了坚实基础。

“我们有北京大数据研究院作后盾,这使我们在技术以及在对接一些政府资源方面,都获得了一定的优势。”在担任普林科技CTO的同时,王亦伦还是北京大数据研究院研发部主任。普林科技是北京大数据研究院孵化的企业,从定位上说,北京大数据研究院更侧重于战略层面,主要提供技术支撑,普林科技则更侧重于具体的技术落地实施。

2015年成立的北京大数据研究院,是国内首个整合了政府、大学和市场资源的大数据研究机构,它依托北京大学、北京工业大学等科研机构建立了北京大数据高精尖创新中心,成立了股份制的技术成果转化中心,建立起纯市场化的大数据创业企业孵化机制和载体,并培育了一批大数据领域的技术创新型企业。

在中关村管委会的支持下,北京大数据研究院设立了大数据创业引导基金,首期规模1亿元,可为孵化项目提供启动资金的支持。“政、产、学、研、用”的深度融合,让北京大数据研究院不但成为大数据科研的“高地”,也成为了大数据应用的孵化基地。

随着大数据产业日渐火爆,数据科学家、数据工程师等人才也愈加供不应求。顺应这一局面,普林科技创建了为全球首个大数据教育、竞赛和服务综合平台——数据嗨客(HackData)。平台包括学习、实战、教室、培训、竞赛、工作六大功能模块,能帮助大数据人才在理论知识、业务能力和实战技能方面全面发展;帮助高校开设大数据分析和数据科学相关课程,构建在线大数据教学和实训综合平台;助力企业打造专业的数据科学团队,提升企业大数据分析能力;为教育培训机构提供在线实训平台支撑。

数据嗨客采取了线上线下结合的教育模式。在线下,普林大数据学院联合北京大数据研究院,从学校和社会两个渠道发力培养大数据人才,主要针对企业管理人员做大数据思维、大数据应用的培训。线上培训的主要形式是在线大数据建模,“数据分析人员不用在电脑上安装任何运行环境,打开浏览器就能在线使用各种工具做数据分析并解决问题。而且,所有模型的运行、训练、评估都是自动的,相当于是我们的平台在帮助用户做运算。因为这类运算要耗费大量计算资源,所以我们会在这方面收费。”王亦伦介绍。

普林大数据学院的师资非常雄厚,其中包括清华、北大等知名高校的老师和业内的数据科学家。结合北京大数据研究院的资源,普林大数据学院会针对各行各业的企业组建企业群,提供真实的数据案例和行业问题供学员在课堂上开展实战演练,而不是只讲授理论知识。显然,依托人才培养功能,数据嗨客更大的价值在于成为一个专门针对大数据的人才服务平台,这将在数据分析人员和有数据分析需求的企业之间架设起一道互通有无的桥梁。


分享到:


相關文章: