工业落地-【draft】Spotlight:Malware Lead Generation at Scale

Spotlight: Malware Lead Generation at Scale

原文链接:https://storage.googleapis.com/pub-tools-public-publication-data/pdf/5987ab07bad53af0a980f35849a86a655793bb17.pdf

原文解析:https://blog.csdn.net/ybdesire/article/details/112078223

CrowdStrcike:https://www.crowdstrike.com/cybersecurity-101/threat-hunting/

VMware [Carbon Black]:https://www.vmware.com/products/carbon-black-cloud.html

恶意软件是当今网络安全的主要威胁之一,其应用范围从钓鱼邮件到勒索软件和特洛伊木马。由于恶意软件威胁的规模和多样性,从整体上打击它是不切实际的。相反,政府和公司成立了团队,专门识别、优先排序和删除直接影响其人口或商业模式的特定恶意软件系列。根据我们的调查,识别最令人不安的恶意软件系列(称为恶意软件搜索)并确定其优先级是一项耗时的活动,占典型威胁情报研究人员工作时间的20%以上。为了节省这一宝贵资源,扩大团队对用户在线安全的影响,我们推出了Spotlight,这是一个大规模恶意软件潜在客户开发框架Spotlight首先根据第一方和第三方威胁情报筛选大型恶意软件数据集,以删除已知的恶意软件系列。然后,它将剩余的恶意软件分为可能未被发现的系列,并根据其潜在的业务影响对它们进行排序,以便进行进一步调查。我们对670万个恶意软件样本进行了评估,以表明它可以产生纯度超过99%(即同质性)的最高优先级集群,这比更简单的方法和之前的工作更高。为了展示Spotlight的有效性,我们将其应用于对真实数据的广告欺诈恶意软件搜索。利用Spotlight的输出,威胁情报研究人员能够快速识别三个执行广告欺诈的大型僵尸网络。

这篇论文首先抛出了一个痛点:Malware Huting
  • malware hunting,就是从海量样本中找出值得关注的
  • 这种malware hunting的工作,一般是Researcher来进行的(借助于一些信息做关联分析、手工分析样本)
  • malware hunting的工作,做起来非常耗时间

Google为了解决这个痛点,就设计了Spotlight这个系统,结合了深度学习分类器,无监督聚类,动态静态分析,规则式判断。

Malware hunting = Malware classification + Malware clustering + Malware prioritization
Spotlight大致的工作流程为:
  • 输入:大量malware样本
  • 处理:移除大量已知family的样本
  • 输出:少量未知family的样本(人工从中找到新threat)
  • 每个样本都有score:根据打分来判断malware对business的影响程度,从而得到人工分析的样本优先级