风控反欺诈(6)【draft】小红书社区反作弊探索与实践

小红书社区反作弊探索与实践

一、社区反作弊的意义

面对已知风险和产业链,下面来讨论下整个作弊防控的策略。所谓策略须先明确作弊防控的目标,以及达到目标的关键路径。

首先明确对于反作弊的预期。反作弊的本质是与作弊者成本的对抗,任何反作弊系统都无法做到 100% 的准确和召回。前面提到,无论何种形式作弊,它都是以牟利为目的的,而利益的来源是作弊成本和收益之间的价值差异。反作弊的工作就是提高作弊成本,尽量压缩作弊利益空间,降低作弊者的动机。因此,合理的目标设定是降低作弊行为在正常行为中的占比,控制风险的浓度。

关键路径是化被动识别为主动防御,如果长期作为被动方,可能没办法有全盘宏观的概念。要做到主动防御,一是构建风险的感知能力,尽早发现风险并且快速反应迭代;二是控制黑产的核心资源(账号,设备),树立高门槛设置准入壁垒,并将有问题的账号进行存量清理。收缩作弊者能使用的账号量和设备量,相应的新账号成本也会变高,这就控制了核心资源。

image-20230401173214898

下面对作弊防控思路做进一步的拆解,也是一个比较通用的方法论,个人认为可以应用到各类风险控制场景里。首先业务风控最大的难点是对抗,无论作弊变成何种形式,唯一不变的就是对抗,它是一直存在的。围绕对抗抽象出几个模块:风险感知、能力建设、风险识别、风险处置、效果评估。在遇到新的对抗时,这几个环节间会进行不断的循环迭代。下面以小红书社区反作弊为例,具体介绍这几个模块的设置。

  • 风险感知层负责更快发现风险,化被动救火为主动防御。具体分为情报运营,黑产卧底和红蓝军对抗,帮助风险识别更早的发现问题,可以说情报是整个风险防控体系的眼睛,解决“看得见”的问题。
  • 能力建设是面向对抗的快速响应能力。这部分涉及的模块,一是端+云联防,在合法合规前提下通过端获取设备信息,并进一步加工为可用特征,供云防策略和算法使用。二是可以快速接入且可灵活配置的风控系统,以实现策略规则的快速迭代。三是为更快的实现从零到一的落地风控场景,搭建可跨场景协同使⽤的风险画像平台,在新风险场景里快速迁移和使用数据基建能力。
  • 风险识别模块,面向对抗需提高识别的准召。从几个角度拓展能力,首先扩充数据,结合设备特征、账号特征、行为特征,以及其他场景下识别的风险画像,做联合使用分析。其次,从挖掘的角度,利用官方平台和作弊者之间的信息不对称性,寻找作弊用户相较于正常用户的异常点:
    • 尝试由点到线,从分析单个行为变成分析一串行为即行为序列挖掘;
    • 从单点到面, 通过账号、IP 或设备等节点之间的拓扑关系进行团伙挖掘,可以带来很大的增益
  • 风险处置方面需要选择更有效的方式提高绕过成本。主要分为两个层面,一是处置对象,二是处置手段。在每个场景下该怎么处置,并没有一个标准答案,建议结合具体业务和业务中的风险来判断,了解风险背后的动机,在考虑应该采取怎样的处置手段才能提高绕过成本。
  • 效果评估可以评估风险水位,一般来说常用的指标有作弊漏过量、漏过率、作弊服务价格、账号价格等。

小红书的风控体系,分为业务数据接入层,数据加工层,分析决策层,数据采集能力沉淀及运营和评估模块。

  • 业务数据层,覆盖用户全场景的行为风控。从设备激活->账号注册->内容浏览 ->交互->内容发布,从多场景层面实现联防联控。对于明确的作弊用户,直接拒绝访问从而加强准入的防御壁垒; 对于疑似异常用户或高难度作弊注册,建议做延迟处理或在后续关键环节上做拦截处置,可以达到增加绕过成本的目的:具体来说,如果在注册时直接拦截,作弊者可快速验证拦截原因;延迟拦截后作弊者定位识别方法的难度变大,找到绕过方法的成本也更高。
  • 数据接入层,风控引擎支持实时请求接入,也支持准实时流式接入和离线数据接入。
  • 数据加工层重点针对身份特征,网络环境,设备信息、行为数据、时序特征,累计因子等去做加工和挖掘,并输入至决策分析层。
  • 决策分析层由策略引擎、模型引擎和数据引擎组成。其中策略引擎完成实时的规则产出和返回,支持灵活的策略配置和策略上下线。模型引擎,对于简单模型,可以做到线上 Serving;对于复杂模型或需要分析的模型,需通过近线或离线实现。
  • 数据采集的能力沉淀层,包含设备指纹采集、名单系统、风险画像、关系图计算和风险事件模块。一方面,作为分析决策层的数据源做输入。另一方面,实现识别能力的迁移、使用等等。决策分析层也会向能力沉淀层做输出, 将新识别风险点落到能力沉淀里复用至其他风险场景。

我们有一些不同的治理方案:

一、对于影响的治理方案是清理这部分作弊的行为所得。但是,仅清理虚假流量,唯一的损失就是买量付出的钱。但对于买量者,还可以尝试其他作弊服务。因为作弊买量价位不会非常高,不断尝试的可能性就很强。关键点在于尝试作弊是没有边际成本的,比如某人偷东西后只是要求把偷窃所得还回去,而不会把他抓起来,只要不被发现就赚了。

二、对于实现链路,针对刷量作弊的账号做治理。比如识别到一个用于刷量的机器账号,平台将该账号封禁。从账号的成本上考虑,提供刷量服务者手上的账号量会变的越来越少,做账号成本就会变高,刷量的服务价格就会上涨,刷量者尝试新手法时成本也会变高。

三、从作弊动机角度考虑,按作弊程度作流量分发降权或商业权益限制。对买作弊流量的笔记做流量分发限制,作弊后可以获得的流量比不作弊更少。其次是限制买作弊流量博主的商业权益,因为很多买量者想通过商业化实现流量变现,对商业权益限制使齐无法做商业合作,对作弊者来说是很大的损失。该模块治理效果,可以大大降低买量者的作弊意愿。

从实践来说,从治理【风险影响】转变为治理【实现链路】与【作弊动机】,作弊意愿降低,作弊量级下降显著。

数据刷量反作弊实践——风险识别

image-20230401202502284

参考文献

  • https://zhuanlan.zhihu.com/p/599625620