风控算法(5)数据挖掘-手机App数据挖掘实现
风控数据—手机App数据挖掘实践思路
引言
作为移动互联网时代的主要载体,智能手机逐渐成为人们日常生活中不可或缺的一部分,改变着人们的生活习惯。比如,可以用“饿了么”点外卖,“支付宝”可以用来种树,“抖音”可以用来上厕所......强大的App给我们的生活带来了巨大的便利。
正因为如此,App与用户之间存在着密不可分的联系,用户在频繁使用这些App过程中也积累了大量的个人历史数据。 这些App数据能帮助我们更好地去理解用户,推测用户的性别、职业、收入、兴趣、偏好等属性,也就是所谓的KYC(Know your customer)。
在风控中,App数据也有其重要价值,常用于反欺诈、风控建模特征工程等。本文将分享App数据的一些挖掘思路,以及实践建议。
首先,让我们思考下几个问题:
- 如何获取数据?
- 数据长啥样?
- 数据如何和业务相结合去理解?
- 可以采用什么算法实现高效提取信息?
- 如何利用这块数据服务业务?
一、 App数据长啥样?
根据资料显示,当前手机App数据主要包括:App安装包名称、App中文名、App安装列表、App安装序列。
为便于区分,常把App中文名记为app_name,App包名称(package)记为pkg_name。其中pkg_name是App的唯一ID,app_name则因为下载渠道、版本更新、数据采集等因素影响导致不唯一。例如,"企业微信"的pkg_name为“com.tencent.wework”,而app_name可能会有“企业微信”、“微信企业版”、“微信(企业版)”等多个值。
至于如何获取手机App package?可以参考这里:实现获取appPackage和appActivity的方法
- App安装集合(App List):指手机上安装的所有App的集合,一般用逗号隔开,如:“com.alibaba.android.rimet,com.tencent.mm,com.citiccard.mobilebank,com.icbc,com.hongxin1.rm”。可以认为是一个集合,因此是无序的。
- App安装序列(App Seq):指手机上包含安装时间的App序列。如:[" 信","1558014854044","com.tencent.mm",,"7.0.4"],分别代表App中文名、App安装时间戳、App包名称和版本号。由于可根据安装时间戳得到安装顺序,因此是有序的。
我们拿“微信”的package在腾讯应用宝中检索,那么就可以找到以下App描述数据:
- 分类标签:标签精确表达了App的核心功能。但可能是开发者在发布App时从可选项中主观选择了一个标签,也有可能腾讯会在后期维护标签。标签不一定准确,但可作为一个重要的参考维度。
- 下载量:可作为判断App是否小众的一个参考维度。然而,能在应用宝上架的App一般是合规的;对于一些质量较差无法上架的app就无法获取到下载量。
- 应用描述:开发者对App的主要功能给出的描述性文本,可提取关键词、主题等内容。但如果只是根据关键词匹配,很容易出错。比如微信中藏有游戏中心入口,文本中出现“游戏”关键词,但这并不是一个游戏类App。