风控反欺诈（5）【draft】京东零售-基于NLP的风控算法模型构建实践

发表于 2023-04-01 更新于 2023-05-06 分类于【draft】应用，工业落地，业务安全，风控反作弊阅读次数：本文字数： 1.3k 阅读时长 ≈ 2 分钟

京东零售基于NLP的风控算法模型构建实践

导读：本团队主要负责京东零售领域的风控算法模型构建，针对京东零售风控方面，业务要求不断地更新、模型失效快、更新迭代慢以及成本高昂等情况，我们提出了自己设计研发的 NLP 预训练架构模型和用户行为预训练模型，并进行预训练模型的平台化，方便一键部署开发，快速迭代，简单易用，推理速度提升等，有效解决了业务问题，并在公开数据集上也得到了很好的效果。

一、背景介绍

如上图所示，京东零售风控的任务是维护京东零售平台健康的交易生态环境，主要包括主站 APP、PC 端等。场景包括 C 端和 B 端两大部分。

C 端风控主要针对恶意刷券，使用外挂软件获取权益，比如用一些黑客软件抢茅台等，还有一些广告辱骂的内容，比如发小广告、不合规的内容等，以及价格方面的管控等。B 端风控主要是针对商家刷单行为、恶意套利行为，以及客服防骚扰。

如上图所示，零售风控算法能力整体上分为用户行为和文本两大部分。用户行为这一块，通过上面提到的场景，算法人员可以将这些场景的数据构建成统计特征、序列行为特征，比如浏览页面等。文本这一块，主要是内容风控，包含舆情，地址异常等场景识别作为基础，以 NLP 的文本特征作为识别的基础。风控领域相对于其他领域的 NLP 场景，其主要的特点是异音异形字的识别，比如加微信，如上图中所示，通过一些异形字体，+薇信，躲避文本的风控检测。

以上两大场景，存在以下几个问题：

第一，失效快，比如广告引流场景，模型很快就会有效果衰减，具体原因就是恶意攻击者，会反复尝试不同的字体和形式，用以破解算法模型，从而达到自己的目的，导致模型失效或者效果下降。
第二，针对新的业务场景，需要大量的人工标注数据，人工标注的成本会非常高，而且耗时比较长。
第三，建模的效率低，效果差，因为首先要做特征，特征完之后，再预训练模型，整个链条拉得非常长，等到模型做好之后，业务方可能不需要这个模型了，或是效果不能达到预期，有的模型效果要求准确率达到接近 100%。

针对这三个问题，我们做了一些思考研究。针对失效快的问题，是否可以建立一个长期有效的机制来解决；针对需要人工标注大量数据这个问题，是否可以建立一个小样本学习能力的模型，不需要标注那么多的标签数据，使用无监督的方式进行训练；针对建模效率低、效果差等，是否可建立一个特征，模型平台化自动生成的机制，使预训练模型和大模型更好地发挥作用，快速建模和生成模型。

基于以上思考，我们依赖于预训练技术，做了一些改进优化。

二、NLP 预训练

如上图所示，NLP 是风控内容、舆情、地址等风控能力的基础，而且，近年来，预训练技术是处理 NLP 的最常用的方式。整体的流程如上图所示：首先数据采集，然后进行模型预训练，最后对模型进行微调。

三、用户行为预训练

参考文献

https://zhuanlan.zhihu.com/p/600326545