风控反欺诈（6）【draft】小红书社区反作弊探索与实践

发表于 2023-04-01 更新于 2023-05-06 分类于【draft】应用，工业落地，业务安全，风控反作弊阅读次数：本文字数： 2.4k 阅读时长 ≈ 4 分钟

小红书社区反作弊探索与实践

一、社区反作弊的意义

面对已知风险和产业链，下面来讨论下整个作弊防控的策略。所谓策略须先明确作弊防控的目标，以及达到目标的关键路径。

首先明确对于反作弊的预期。反作弊的本质是与作弊者成本的对抗，任何反作弊系统都无法做到 100% 的准确和召回。前面提到，无论何种形式作弊，它都是以牟利为目的的，而利益的来源是作弊成本和收益之间的价值差异。反作弊的工作就是提高作弊成本，尽量压缩作弊利益空间，降低作弊者的动机。因此，合理的目标设定是降低作弊行为在正常行为中的占比，控制风险的浓度。

关键路径是化被动识别为主动防御，如果长期作为被动方，可能没办法有全盘宏观的概念。要做到主动防御，一是构建风险的感知能力，尽早发现风险并且快速反应迭代；二是控制黑产的核心资源（账号，设备），树立高门槛设置准入壁垒，并将有问题的账号进行存量清理。收缩作弊者能使用的账号量和设备量，相应的新账号成本也会变高，这就控制了核心资源。

下面对作弊防控思路做进一步的拆解，也是一个比较通用的方法论，个人认为可以应用到各类风险控制场景里。首先业务风控最大的难点是对抗，无论作弊变成何种形式，唯一不变的就是对抗，它是一直存在的。围绕对抗抽象出几个模块：风险感知、能力建设、风险识别、风险处置、效果评估。在遇到新的对抗时，这几个环节间会进行不断的循环迭代。下面以小红书社区反作弊为例，具体介绍这几个模块的设置。

风险感知层负责更快发现风险，化被动救火为主动防御。具体分为情报运营，黑产卧底和红蓝军对抗，帮助风险识别更早的发现问题，可以说情报是整个风险防控体系的眼睛，解决“看得见”的问题。
能力建设是面向对抗的快速响应能力。这部分涉及的模块，一是端+云联防，在合法合规前提下通过端获取设备信息，并进一步加工为可用特征，供云防策略和算法使用。二是可以快速接入且可灵活配置的风控系统，以实现策略规则的快速迭代。三是为更快的实现从零到一的落地风控场景，搭建可跨场景协同使⽤的风险画像平台，在新风险场景里快速迁移和使用数据基建能力。
风险识别模块，面向对抗需提高识别的准召。从几个角度拓展能力，首先扩充数据，结合设备特征、账号特征、行为特征，以及其他场景下识别的风险画像，做联合使用分析。其次，从挖掘的角度，利用官方平台和作弊者之间的信息不对称性，寻找作弊用户相较于正常用户的异常点：
- 尝试由点到线，从分析单个行为变成分析一串行为即行为序列挖掘；
- 从单点到面，通过账号、IP 或设备等节点之间的拓扑关系进行团伙挖掘，可以带来很大的增益。
风险处置方面需要选择更有效的方式提高绕过成本。主要分为两个层面，一是处置对象，二是处置手段。在每个场景下该怎么处置，并没有一个标准答案，建议结合具体业务和业务中的风险来判断，了解风险背后的动机，在考虑应该采取怎样的处置手段才能提高绕过成本。
效果评估可以评估风险水位，一般来说常用的指标有作弊漏过量、漏过率、作弊服务价格、账号价格等。

小红书的风控体系，分为业务数据接入层，数据加工层，分析决策层，数据采集能力沉淀及运营和评估模块。

业务数据层，覆盖用户全场景的行为风控。从设备激活->账号注册->内容浏览 ->交互->内容发布，从多场景层面实现联防联控。对于明确的作弊用户，直接拒绝访问从而加强准入的防御壁垒; 对于疑似异常用户或高难度作弊注册，建议做延迟处理或在后续关键环节上做拦截处置，可以达到增加绕过成本的目的：具体来说，如果在注册时直接拦截，作弊者可快速验证拦截原因；延迟拦截后作弊者定位识别方法的难度变大，找到绕过方法的成本也更高。
数据接入层，风控引擎支持实时请求接入，也支持准实时流式接入和离线数据接入。
数据加工层重点针对身份特征，网络环境，设备信息、行为数据、时序特征，累计因子等去做加工和挖掘，并输入至决策分析层。
决策分析层由策略引擎、模型引擎和数据引擎组成。其中策略引擎完成实时的规则产出和返回，支持灵活的策略配置和策略上下线。模型引擎，对于简单模型，可以做到线上 Serving；对于复杂模型或需要分析的模型，需通过近线或离线实现。
数据采集的能力沉淀层，包含设备指纹采集、名单系统、风险画像、关系图计算和风险事件模块。一方面，作为分析决策层的数据源做输入。另一方面，实现识别能力的迁移、使用等等。决策分析层也会向能力沉淀层做输出，将新识别风险点落到能力沉淀里复用至其他风险场景。

我们有一些不同的治理方案：

一、对于影响的治理方案是清理这部分作弊的行为所得。但是，仅清理虚假流量，唯一的损失就是买量付出的钱。但对于买量者，还可以尝试其他作弊服务。因为作弊买量价位不会非常高，不断尝试的可能性就很强。关键点在于尝试作弊是没有边际成本的，比如某人偷东西后只是要求把偷窃所得还回去，而不会把他抓起来，只要不被发现就赚了。

二、对于实现链路，针对刷量作弊的账号做治理。比如识别到一个用于刷量的机器账号，平台将该账号封禁。从账号的成本上考虑，提供刷量服务者手上的账号量会变的越来越少，做账号成本就会变高，刷量的服务价格就会上涨，刷量者尝试新手法时成本也会变高。

三、从作弊动机角度考虑，按作弊程度作流量分发降权或商业权益限制。对买作弊流量的笔记做流量分发限制，作弊后可以获得的流量比不作弊更少。其次是限制买作弊流量博主的商业权益，因为很多买量者想通过商业化实现流量变现，对商业权益限制使齐无法做商业合作，对作弊者来说是很大的损失。该模块治理效果，可以大大降低买量者的作弊意愿。

从实践来说，从治理【风险影响】转变为治理【实现链路】与【作弊动机】，作弊意愿降低，作弊量级下降显著。

数据刷量反作弊实践——风险识别

参考文献

https://zhuanlan.zhihu.com/p/599625620