清华大学|DataVisor技术总监吴中:无监督大数据反欺诈

在线服务的迅速兴起促使互联网用户和商家呈爆炸式增长,一个新的“亿万用户时代”已经来临。与此同时,精心策划的欺诈活动和黑客攻击也随之蔓延:他们注册大量虚假账户,盗取用户数据,进行各种非法活动谋取暴利,并不断变换攻击手段和模式。对在线服务商而言,这些恶意欺诈行为在用户体验、经济收益、品牌安全和信誉等各方面都造成了不可估量的损失。

5月8日,由清华大学交叉信息研究院、数据科学研究院主办,大数据产业联合会、清华大学经济管理学院研究生团总支承办的互联网时代的欺诈和防范讲座在清华大学经管学院举办,DataVisor全球技术总监吴中受邀进行分享。吴中毕业于清华大学,在微软全球执行副总裁沈向洋博士的指导下获得计算机科学与技术学科的博士学位。作为清华大学校友,吴中带着其多年海外技术经验首次返回清华校园与同学们分享最先进的反欺诈检测技术应用。

清华大学|DataVisor技术总监吴中:无监督大数据反欺诈

吴中清华大学讲座分享:无监督大数据反欺诈

本次讲座中,吴中介绍了互联网时代在线服务商所面临的各种欺诈方式和由此带来的技术挑战,并分析了传统的技术,如设备指纹、规则系统及有监督机器学习系统等在风控方面的不足。 同时,吴中基于实例讨论云服务和大数据体系如Apache Spark, HBase, Elasticsearch等为反欺诈带来的新的契机,并介绍了如何利用基于内存的Spark平台进行无监督大数据分析。 相比传统的基于规则或仅用设备指纹等单一信号的检测体系,无监督大数据反欺诈能大幅度提高检测覆盖率,自动发现未知的新的欺诈手段,对不断变换的欺诈行为进行有效的预警和封杀。

清华大学|DataVisor技术总监吴中:无监督大数据反欺诈

现场分享

以下为讲座精彩内容分享:

互联网新一代欺诈攻击类型及特性

互联网服务和移动App的飞速发展,一方面给我们提供了丰富多彩的服务,另一方面也给面向用户的线上平台带来了很多挑战,例如盗号、虚假账户注册、虚假内容发布、虚假点击、欺诈交易、促销滥用、洗钱等,互联网上的欺诈早已从单一欺诈向大规模团体欺诈转变。欺诈者注册大量用户账号,之后发起有组织、有规模的攻击行为,以达到商业谋利的目的。通常欺诈者在账号注册后的一段时间内会进行养号、潜伏,模仿正常的用户行为,如登陆、内容发布、进行交易等,并在正式发起攻击前进行小范围测试,最后才会正式发起大规模攻击。整个互联网欺诈呈现出大规模欺诈的协同性和潜伏性的特征。

互联网欺诈攻击的四大趋势

欺诈行为多样性

随着线上业务场景变多,如各个平台发放返利红包、线上交易、线上借贷等,同一个账号或同套类似方法可能进行多种不同类型的活动,欺诈行为也随之呈现出多样性的特征。

环环相扣的欺诈产业链

就像组织严密的现代黑帮一样,网络黑产到如今已经商业化得非常成熟了,黑客们同样拥有复杂精巧的产业链。最上游通过各种钓鱼手段、黑客攻击等多种方式获取用户信息,比如账户密码、身份信息、银行卡信息等等;之后下游利用信息进行非法牟利活动,比如发布虚假信息、盗取游戏装备、盗卡交易等。

欺诈潜伏期变长

欺诈和反欺诈一直都是一场介于欺诈者和企业之间的较量,从未停止过。欺诈者在不断变化攻击手段和技术的同时,公司内部反欺诈团队也在不停的优化规则,尽可能创建覆盖率更高、检测效果更精准的模型。于是,“聪明”的欺诈者会在正式发起攻击前,花费更多的时间和精力模仿正常用户行为,不断测试平台检测机制,以确保最大可能性躲避检测。

善用多种欺诈辅助工具

欺诈者为了躲避检测,通常会采取多种欺诈辅助工具,如基于云服务器/肉机的攻击、设备刷机、用专业工具模拟正常用户行为等。

面临的挑战和解决方案

清华大学|DataVisor技术总监吴中:无监督大数据反欺诈

欺诈检测技术的发展

欺诈检测技术的发展

从传统的黑名单、信誉库、设备指纹到规则系统,以及更进一步的有监督机器学习,欺诈检测技术在不断发展进步。每种检测方法都有其各自的优势,但是在某些难点问题上,却始终没有突破。

难点之一:检测新型的未知欺诈行为

难点之二:检测整个欺诈群组

难点之三:高效的处理数十亿用户的数据

(点击链接,获取更多 )

在当今的大数据时代,企业面临几十亿用户的数据,相应的特征量级可能达到千亿甚至万亿,如何高效处理并挖掘数据也是一项很大的技术挑战。DataVisor的大数据体系架构采用了很多开源技术,数据层包括在线的监控和离线的加密存储,分析层包括分析、计算和检索,使用Spark、HBase和ElasticSearch等开源技术。

无监督大数据欺诈检测的优势

清华大学|DataVisor技术总监吴中:无监督大数据反欺诈

无监督大数据欺诈检测的优势

DataVisor独创的无监督机器学习算法弥补了规则引擎和有监督机器学习这两种模型的不足,无监督检测算法无需依赖于任何标签数据来训练模型。这种检测机制算法的核心是无监督欺诈行为检测 -- 通过利用关联分析和相似性分析,发现欺诈用户行为间的联系,创建群组,并在一个或多个其他群组中发掘新型欺诈行为和案例。


DataVisor数据分析平台在使用无监督机器学习的同时,还补充使用了其它检测分析技术,如有监督机器学习、自动规则引擎和全球智能信誉库。通过同时使用以上多种技术,DataVisor一站式用户分析平台为个体欺诈和分布式的群体欺诈提供最先进的反欺诈技术解决方案,对新型的、变化多端的欺诈行为进行提前预警,在损失发生前提前有效捕捉欺诈行为。

无监督机器学习的独特优势:

  1. 预见性威胁检测:无需训练数据,在损失发生前提前捕捉未知欺诈;

  2. 群组行为检测:通过关联具有相似特征的坏用户群组,捕捉整个欺诈群组;

  3. 弹性数据模型:灵活的数据模型支持多行业不同业务的数据分析;

  4. 大规模数据处理能力:为全球大型互联网公司提供包含但不限于交易数据的数十亿事件数据分析。

吴中简介:

清华大学|DataVisor技术总监吴中:无监督大数据反欺诈

吴中,DataVisor全球技术总监

吴中 DataVisor全球技术总监兼中国区负责人

吴中毕业于清华大学,在微软全球执行副总裁沈向洋博士的指导下获得计算机科学与技术学科的博士学位。现于DataVisor担任技术总监,并主要负责DataVisor中国区业务。在全球顶级计算机视觉会议如CVPR,ICCV,PAMI 等发表多篇有影响力的论文,并在大数据搜索,大数据安全领域有多项专利申请。在加入DataVisor之前,吴中在微软的Bing部门从事图像搜索工作,工作范围包括大规模文本及图像特征的抽取、索引,搭建高性能系统和设计高效算法,通过提高数十亿图像搜索索引的质量,进而提升Bing图像搜索结果的相关性。


分享到:


相關文章: