导读:随着互联网的高速发展,其已经渗透到我们日常生活的方方面面,从社交、电商、直播,到金融、医疗保险等传统行业,各行各业、各种形态的互联网化在给我们生活带来便利的同时给行业带来了潜在的风险,各种欺诈、洗钱和违规的风险与日俱增。任何行业围绕互联网的生态,从业务发展和用户账户的全生命周期都存在多种多样的风险。如何利用半监督机器学习、图算法等人工智能的技术来及时地实现风险识别、风险拦截以减少损失,对于企业和社会都有重要的价值与意义。
根据信通院的统计分析,2020年我国网络黑客上下游人数已达到500万,欺诈给互联网带来的损失已经有5000亿人民币,而且这些年仍呈现不断增长的趋势,全球洗钱已经有万亿美元的规模,地下网络经济犯罪产业链庞大且分工精细,攻击手段层出不穷、危害巨大。
监管机构对反欺诈反洗钱高度关注,一方面针对互联网平台内容合规、非法套利、洗钱等行为,网信办对各大互联网企业出台相关的政策;另一方面针对各大金融企业及第三方支付机构,央行、银保监会也不断出台相应的法案法规和企业个人“双罚制”的惩罚措施,2021年前7个月共有3.4亿的罚金。因此⾦融机构与企业亟待运用⾦融科技与合规科技⼿段,提升反洗钱、反欺诈⼯作效率,并使用风控和合规模型挖掘和检测各种已知、未知的风险⾏为,建立以风险为本,以大数据分析、机器学习建模为核心的管理系统。
互联网金融犯罪产业链分为两大部分,其中一部分是通过互联网将资金从正常人手里转移到黑灰产手里的入口,第二部分就是黑灰产分子通过第三方支付和金融体系来实现资金的转移。根据业务的发展及用户账户的全生命周期,可以将风险来源分为以下情况:
-
-
-
-
动账交易:电信诈骗、扫码欺诈、POS套现、贷记卡欺诈、洗单洗钱
-
保险业务中:个性化定价、中保风险、理赔欺诈、洗单洗钱
现在的欺诈/洗钱行为多为团伙的高智商犯罪,他们手段高明、资源多、动力强,故意避开当前已有的检测系统,现有的模型和规则鲁棒性较差,很容易被干扰和规避。风险标签样本获取成本高,少量标签难以训练高质量模型,误伤多,人工审核任务繁重、成本高,难以管控,不能防住大规模欺诈等风险行为。
通过客户设备、时间、地点等基本信息数据、账户操作行为数据和下单购买、转账等交易数据,对于单用户多事件通常采用时间序列的建模方法,对于团伙犯罪这种多账户之间的事件往往通过图挖掘算法来识别异常行为和关联,发现隐蔽的欺诈团伙和未知攻击,及时进行干预,降低银行的损失。
具体而言,就是将用户数据构建成图,图节点表示一个客户或者一个设备,边表示两个客户或两个设备之间的关系,例如MAC地址的关系等;可以用出度和入度、互惠度、聚类系数等指标来刻画局部图特征;通过异常检测、图聚类、环检测、图卷积神经网络等进行标签传播和图的计算。
上述方案适用于金融、电商、零售、游戏、社交、出行等多个行业的用户全生命周期的各个环节。
市面上已有的解决方案大多基于规则系统,只能做浅层分析,检测简单的和已知发生过的洗钱行为,其准确度和覆盖率都不够高,容易被狡猾欺诈/洗钱团伙规避。即便使用机器学习模型,一般过度依赖于有标签的历史数据来进行模型训练,但有标签的数据往往比较稀少,且事后的标签获得意味着要先付出巨大的代价。同时当洗钱分子使用新的手段时,依赖过去标签数据训练出来的模型很难对新的洗钱行为进行防范。
而半监督主动式机器学习技术综合少量标签数据和大量无标签数据,对账号的异常行为和关联关系进行精准建模,精准检测狡猾多变的(协同)欺诈/洗钱行为,大幅度提高覆盖率,降低误伤率。具体而言就是通过海量节点、多种异构关联边的图挖掘、异常检测和标签传播技术,发现未被规则识别出的高风险主体和洗钱网络。根据能量最小化原理,使用基于关联图的拉普拉斯调和解实现标签迁移学习,最终实现洗钱网络团伙的识别工作。
交易反欺诈对时间的要求是比较高的,因此需要通过读取用户历史特征并结合当前最新信息,来实时计算和生成模型需要的特征,随后需要根据这些特征进行实时的模型计算。对于这种毫秒级的实时计算能力往往需要在分布式的Redis和Spark集群上进行。针对银行卡被盗卡盗刷的场景,我们的交易反欺诈模型通过主动防范风险、改善支付体验、在线实时识别取得了较好的效果,能有85%的准确率和70%的命中率,在较低的客户打扰率的情况下也能很好地阻止欺诈交易的发生。
随着银行各项业务和产品的迅猛发展,违规人员的违规操作愈发复杂化、隐蔽化、团伙化、多样化,传统的内控审计检查方法和模型的准确性、覆盖面存在不足,容易被模拟、被突破,发现重要性问题难度越来越大。慧安金科的智能内控审计平台是一个将人工智能、大数据技术与内控审计业务深度融合的产品,它融合业内领先的人工智能、半监督图计算、异常检测等技术,更加科学、全面、精确地自动识别复杂、重大、重要团伙性风险问题,帮助审计人员快速定位、智能分析审计问题,提升以下三个业务目标的实现:
-
-
-
审计工作方式由“项目主导”向“持续性审计监测主导”的方式转变。
平台每天的活跃用户比较庞大,会带来很多虚假注册和开户行为,会有接口攻击等危险,而且多地域、多设备、多IP的分布式攻击行为是当前已有风控系统面临的巨大挑战。
基于半监督主动式机器学习的解决方案,在不侵犯个人隐私、无预知欺诈的类型特点的前提下,从数据的多个维度上识别不正常的用户关联,帮助客户在注册和开户时检测团伙的恶意攻击,拦截虚假注册和开户、提前识别可疑账号、检测出潜伏的团伙欺诈,提前预测各类隐藏未知欺诈威胁的决策引擎。模型效果达到80%的覆盖率,且达到98%的准确率,每季度给客户降低损失超百万美元。
人工智能赋能的反欺诈、反洗钱业务是希望实现“优化现并增补已有规则库、识别风险团伙扩大可疑账户覆盖面、审核流程优化,提高质量、优化调查人员工作人力,提高效率、提高案件识别精准度”的目标。
慧安金科在不需要提前知道标签与规则的情况下,通过人机协同方案,基于用户多个维度指标的关联权重构建图,采用图分析等半监督算法,从海量的数据中挖掘用户的未知风险,并经过人工反馈来实现业务风险的挖掘。
Q:图算法具体指的是哪种算法?
A:这里的图算法是多种算法的融合,例如图的分割、谱分析、图上的各种聚类算法、标签传播、能量函数的分析、图卷积神经网络等多种算法的综合应用。
Q:如何评价无监督识别的效果及准确性?
A:这里所指的无监督并不是数据完全没有标签,而是训练的时候没有使用标签。像训练的时候采用历史数据,那个时候还没有标签,但是过一段时间就会有真实的标签数据。我们一般是回顾历史上建好的模型,进行后续的人工打标和持续监控等获取真实标签。
Q:图是如何实现实时的构建与更新?
A:这实际上一个增量更新。基于Redis的内存空间,在内存空间里去维护到最新时间节点的一个图的表征。当新的事件来的时候,更新图其实只会影响局部的图,算法也是只影响局部的子图。那么基于稀疏图的单事件或多事件的微批更新就可以特别快。可能有的不能满足20ms的响应速度但是1s之内的响应速度还是可以的,如果对响应速度要求特别高的话,则需要搭建高性能的实时图数据库。

活动回顾&资料下载


大佬观点