风控反欺诈(5)【draft】京东零售-基于NLP的风控算法模型构建实践
京东零售基于NLP的风控算法模型构建实践
导读:本团队主要负责京东零售领域的风控算法模型构建,针对京东零售风控方面,业务要求不断地更新、模型失效快、更新迭代慢以及成本高昂等情况,我们提出了自己设计研发的 NLP 预训练架构模型和用户行为预训练模型,并进行预训练模型的平台化,方便一键部署开发,快速迭代,简单易用,推理速度提升等,有效解决了业务问题,并在公开数据集上也得到了很好的效果。
一、背景介绍
如上图所示,京东零售风控的任务是维护京东零售平台健康的交易生态环境,主要包括主站 APP、PC 端等。场景包括 C 端和 B 端两大部分。
C 端风控主要针对恶意刷券,使用外挂软件获取权益,比如用一些黑客软件抢茅台等,还有一些广告辱骂的内容,比如发小广告、不合规的内容等,以及价格方面的管控等。B 端风控主要是针对商家刷单行为、恶意套利行为,以及客服防骚扰。
如上图所示,零售风控算法能力整体上分为用户行为和文本两大部分。用户行为这一块,通过上面提到的场景,算法人员可以将这些场景的数据构建成统计特征、序列行为特征,比如浏览页面等。文本这一块,主要是内容风控,包含舆情,地址异常等场景识别作为基础,以 NLP 的文本特征作为识别的基础。风控领域相对于其他领域的 NLP 场景,其主要的特点是异音异形字的识别,比如加微信,如上图中所示,通过一些异形字体,+薇信,躲避文本的风控检测。
以上两大场景,存在以下几个问题:
- 第一,失效快,比如广告引流场景,模型很快就会有效果衰减,具体原因就是恶意攻击者,会反复尝试不同的字体和形式,用以破解算法模型,从而达到自己的目的,导致模型失效或者效果下降。
- 第二,针对新的业务场景,需要大量的人工标注数据,人工标注的成本会非常高,而且耗时比较长。
- 第三,建模的效率低,效果差,因为首先要做特征,特征完之后,再预训练模型,整个链条拉得非常长,等到模型做好之后,业务方可能不需要这个模型了,或是效果不能达到预期,有的模型效果要求准确率达到接近 100%。
针对这三个问题,我们做了一些思考研究。针对失效快的问题,是否可以建立一个长期有效的机制来解决;针对需要人工标注大量数据这个问题,是否可以建立一个小样本学习能力的模型,不需要标注那么多的标签数据,使用无监督的方式进行训练;针对建模效率低、效果差等,是否可建立一个特征,模型平台化自动生成的机制,使预训练模型和大模型更好地发挥作用,快速建模和生成模型。
基于以上思考,我们依赖于预训练技术,做了一些改进优化。
二、NLP 预训练
如上图所示,NLP 是风控内容、舆情、地址等风控能力的基础,而且,近年来,预训练技术是处理 NLP 的最常用的方式。整体的流程如上图所示:首先数据采集,然后进行模型预训练,最后对模型进行微调。
三、用户行为预训练
参考文献
- https://zhuanlan.zhihu.com/p/600326545