风控反欺诈(4)智能风控体系总览
智能风控体系总览
一、智能风控体系介绍
智能风控是利用大数据、人工智能技术和科学决策方法,通过自动化预测、评级和决策等方式,提高风控效果和效率、降低成本的一套综合体系。智能风控包括智能风控的方法论,智能风控的算法,工程技术的实现以及深入业务场景的应用。
智能风控方法包含模型搭建方法、数据挖掘方法、风控策略制定方法,通过一系列方法,我们可以构建智能风控的基本架构。
智能风控算法包括机器学习算法、深度学习和关系网络等算法,这些算法是方法体系中的核心部件,也是智能风控得以展现智能的关键部分。
工程技术实现是运用智能风控的方法论以及智能算法,结合工程技术,实现自动化的风控决策和智能交互。
应用方面,在业务流程的全过程中,只要有风险点的环节都可以加入智能风控进行决策。根据不同的业务场景灵活的选取模型规则的组合进行自动决策。自动体系要达到的最终目的是提高企业风控的精准度和效率,将风险控制在合理的范围内,减少风险损失提高企业的盈利能力。
二、智能风控详细体系架构
我们可以将智能风控体系拆解为图示的详细架构。该架构包含四层,分别为数据层、特征层、模型层和决策层。
- 如果将整个智能风控体系比作一栋建筑,那么数据层是智能防控体系最基础的原材料。我们通过大量的历史数据来训练模型,通过数据构建特征,通过数据作为新决策的判断输入。
- 特征层是智能风控的砖瓦,基于数据构建特征,通过提取数据中的关键信息,形成可以用于模型和决策的特征。
- 模型层是智能风控的主体结构,通过历史样本数据和目标数据,利用各类机器学习算法基于丰富的特征,训练出满足各类业务场景的模型。
- 策略层是智能风控的门面,特征和模型最终将服务于业务的特定场景。在不同的业务场景参与决策,策略层通过模型和规则的各种组合完成决策过程。
智能风控的每一层,再进行横向划分,包括关键内容、流程步骤、算法方法、工具平台。
- 关键内容列包含每一层的主体内容和重要结果。
- 流程步骤列是每一层构建关键的内容的流程和主要步骤。
- 算法方法列是构建每一层结果采用的主要智能算法方法。
- 工具平台列是包含构建流程管理关键结果的工具,是自动化管理的技术落地。
以上是整体的智能风控的体系架构。接下来展开每一层进行详细介绍。
2.1 数据层
首先是数据层。数据是所有智能风控的基础,数据中包含识别风险的信息,智能风控数据层包含不同类型的数据。根据来源我们可以将数据分为其内部数据和第三方数据。以金融风控场景中常见的数据为例,企业内部数据包含基础信息,比如身份信息、学历信息、设备相关的信息包含 app 行为数据、设备指纹数据等。交易数据包含授信记录数据、还款记录数据等。第三方数据就更加广泛,包括多头借贷数据、征信相关数据等。
清楚自己的数据都有哪些?waflog、router、环境、埋点、设备指纹
数据处理上,按照处理的实效性划分,可以分为实时计算和离线计算。实时计算通常是用于实时决策场景。比如线上金融业务的授信审批,需要实时获取各类信贷决策的数据。离线计算通常用于定时任务,比如信贷风控中的贷中风控识别场景。从数据处理的方式上划分,可以分为流式数据处理和批量数据处理。
- 数据处理的步骤通常分为数据采集、数据校验、数据清洗、数据存储、标准输出和数据监控。数据采集步骤对企业内部数据通常是从业务系统产生的数据元素获取需要的数据字段。对外是从第三方接口获取数据。
- 数据校验是对数据做基本的验证判断,确保指定对象的数据有效。数据清洗是对数据做规范标准化处理,排除异常和杂乱数据。数据存储分为线上实时数据和离线数据存储,以满足不同使用场景和目的。
- 标准化输出是将数据处理的结果对外提供使用接口或者其他的查询服务。
- 数据监控是对整个数据处理结果的过程进行监控预警,及时发现数据层的应用异常。
- 数据平台是数据层的支撑工具,通过数据平台来实现数据层的管理。通常数据平台包含内外部数据接入整合的功能,数据管理和服务的功能,数据校验和监控的功能。
2.2 特征画像层详解
特征是对数据的再次加工,将智能风控建筑的原材料变成砖瓦。特征是从数据中抽取有效的、针对特定目的的部分信息,从数据产生特征的过程就是特征挖掘。数据质量决定了特征质量的上限,但是好的特征挖掘过程是尽量的从数据中挖掘出最有价值的信息。有些特征是直接从数据中获取的比如性别、年龄、居住区域这类身份特征和基础信息特征。另外一些特征就需要对原始数据进行汇总加工比如借款次数、额度使用占比等。还有一些特征需要基于关系图谱机器学习的方法进行深度加工才能提取,比如二度关系里人的特征、收入指数、消费能力指数等。
- 特征提取的方法包括基于统计聚类的 RFM 方法,基于时序特征的提取方法,基于机器学习 NLP 图特征图算法等特征提取方法。虽然特征提取的方法不同,但是特征提取的关键步骤基本是一致的。
- 源数据分析和清洗是对原始数据的流转、时效、质量等进行分析并清洗处理成标准格式。中间数据构造是按照不同特征提取的方法构建中间数据集,比如二分类特征提取方法要求数据集为标准的宽表数据格式。
- 特征设计和生成是根据不同特征提取方法设计并生成特征,比如 RFM 特征方法中需要选取特征汇总的不同维度、汇总的对象以及汇总的计算方式。
- 特征评估是对特征效果进行分析,选择效果好、稳定性高的特征。
- 特征回溯是对历史数据进行回测,通常服务于特征提取后的建模场景。
- 特征监控是对已经进入使用阶段的特征进行持续监控以确保有效性和稳定性。
- 特征平台是为了支撑特征从开发到应用的工具平台。通常特征平台包括特征挖掘模块、特征计算模块和特征管理模块。
2.3 模型算法层详解
模型算法层是智能风控的核心,是构成智能风控建筑的主体结构。通过模型算法层实现智能化的预测评估。风控中典型的场景就是预测风险,计算发生风险的概率,再复杂的算法本质上还是可以理解为概率问题。风控场景中的模型有很多种类,这些都是根据业务场景来决定的。金融风控场景中我们构建模型计算评分来预测用户的欺诈概率、违约概率、贷中风险发生的概率、贷后催收回款的概率。在营销场景中我们构建模型来判断营销成交转化的概率、识别作弊的概率。在内容风控场景中构建模型来判定内容违规的概率。
模型是机器学习算法构建的结果。为了构建模型我们可以选择的算法是多种多样的,新的算法也在不断产生和更新迭代。风控领域常用的算法包括基础算法如逻辑回归算法、决策树算法等。集成学习算法包括随机森林、xgboost 等。深度学习算法包括神经网络、图神经网络等等。
算法和场景虽然不同,但是构建模型的流程也是基本相似的。可以划分为如下几个步骤:
- 问题定义是对业务场景的问题进行明确和界定。
- 样本定义及划分是选择合适的样本定义标签,选择可用的特征范围。
- 模型架构设计是确定算法,确定模型结构。
- 数据准备与 EDA 是对样本数据进行整理探索性分析。检查样本的可靠性。
- 特征选择是从大量的被选特征当中选择效果好和覆盖率高的特征。
- 模型训练与评估是完成模型训练并评估模型效果,此过程可以循环迭代多次。
- 模型监控是在模型应用之后持续的监控,确保模型的有效性和稳定性。
模型平台是支持模型管理的工具。通常模型平台包括自动建模功能模块、模型计算功能模块、模型管理功能模块。
2.4 决策应用层详解
决策应用层是整个智能风控体系的最后环节。这一层针对业务场景,基于特征和模型结果制定决策方案,对最终的业务决策和流程产生影响。
策略环节通常需要设计一套决策流程,在流程中的每一个环节设置决策规则。这些规则包括直接使用特征制定的规则和基于模型制定的规则。通过规则实现业务流程的通过或者拒绝、差异化的分流等动作。在金融风控贷前场景中,通常的决策包括欺诈识别、信用风险识别以及其他一些准入拦截。对于通过的客户在进行差异化的审核操作、差异化的授信额度决策、差异化的定价政策等等。在策略制定的过程中,可以选择多种的决策算法进行支持的,包括决策树,异常点检测等等算法来支持我们制定决策规则,用最优化的算法来支持我们进行最优化决策点的选择。
风控策略制定中最常见的就是进行风控规则策略的制定,通常的流程如下:
- 识别业务场景中常见的风险点;
- 选择合适的分析样本;
- 基于历史数据选择算法生成规则;
- 对规则的有效性和稳定性进行评估;
- 设计规则测试的方案;
- 通常进行 AB 实验来验证规则的效果;
- 对规则的有效性和稳定性进行持续监控;
决策引擎是支持策略部署执行的一个工具。决策引擎通常包括规则配置、决策流的配置、审批管理等功能模块。
三、智能风控平台交互逻辑
企业在风控体系搭建的初期,不一定会有标准化的平台工具来支持。但是随着企业智能风控体系的这个发展和成熟,更加高效的方式还是去建立每个功能模块的平台化工具。
智能风控体系中几个关键平台工具之间的交互关系如上图所示:
- 数据平台主要是为特征平台提供数据的输入,同时,它也支持各类样本数据、分析数据的提取。
- 特征平台主要是为模型平台和决策引擎提供特征计算和输入。
- 模型平台主要是为决策引擎提供模型计算结果的输入。
- 决策引擎主要是基于特征平台和模型平台的结果进行决策,几个工具平台之间的相互依赖和配合,形成了智能风控全流程的一个闭环。
四、发展趋势展望
智能风控技术发展到今天,各种机器学习算法层出不穷。但是这些技术发展和其他新鲜事物是一样的,会从高速发展逐步进入稳定期。这个阶段新的技术不会有明显的颠覆性,更多的是在原有的基础上进行一定的改良。那么现在智能风控技术目前就处于这样一个阶段,但是在应用场景上随着智能风控技术的持续发展和应用场景的不断创新探索,智能风控会越来越深入到每一个业务场景的每一个环节。传统的通过人工完成的大部分工作都可以被智能风控技术所替代。不论是从风控识别的效率还是效果上,这类场景智能技术都比人工更好。但是另一方面,在一些特殊的复杂度较高的情况下,还是需要一些进行人工补充的,尤其是在数据量较少、新的风险模式变化不确定性又非常大的领域还是有人工发挥的余地。智能风控会占据大多数的通用场景,人工是趋于在一些细分领域或者小众的场景继续发挥价值。
关于智能风控体系,我在《智能风控实践指南:从模型特征到决策》的书里面也有更多的一些介绍,有兴趣的朋友可以参考。
参考文献
- DataFunTalk:https://zhuanlan.zhihu.com/p/606786916