恶意软件检测(5)BODMAS-An Open Dataset for Learning based Temporal Analysis of PE Malware

BODMAS: An Open Dataset for Learning based Temporal Analysis of PE Malware

2021 SP Workshops

On training robust PDF malware classifiers. (2020 USENIX)

一、摘要

我们描述并发布了一个名为BODMAS的开放PE恶意软件数据集,以促进基于机器学习的恶意软件分析的研究工作。通过仔细检查现有的open PE恶意软件数据集,我们发现了两个缺失的功能(即最近/时间戳的恶意软件样本和精心策划的家族信息),这限制了研究人员研究概念漂移和恶意软件系列演化等紧迫问题的能力。出于这些原因,我们发布了一个新的数据集来填补空白。BODMAS数据集包含从2019年8月至2020年9月收集的57293个恶意软件样本和77142个良性样本,以及精心策划的家族信息(581个家族)。我们还进行了初步分析,以说明概念漂移的影响,并讨论该数据集如何有助于促进现有和未来的研究工作。

二、说明

如今,研究人员[30]、[5]、[11]、[6]和反病毒供应商[1]将机器学习模型(包括深度神经网络)广泛应用于恶意软件分析任务中。在这一工作领域,拥有公共数据集和开放基准是非常可取的。一方面,这些数据集将有助于促进解决开放性挑战的新工作(例如,对抗性机器学习、可解释技术[28]、[10])。另一方面,公共基准和数据集可以帮助研究人员轻松地比较他们的模型,并跟踪整个社区的进展。然而,创建开放式恶意软件数据集是一项极具挑战性的工作。例如,[5]的作者讨论了许多此类挑战,包括法律限制、标记恶意软件样本的成本和难度,以及潜在的安全责任。除了这些因素外,另一个关键挑战是恶意软件(以及良性软件)的动态演化性质[20]。随着时间的推移,新的恶意软件系列和变种不断出现,它们不断地对底层数据分布进行更改。因此,随着时间的推移,不断需要发布新的数据集和基准。在过去的十年中,只有少数公开的PE恶意软件数据集发布到研究社区[30]。值得注意的例子包括Microsoft恶意软件分类挑战数据集[24]、Ember[5]、UCSB打包恶意软件数据集[2]和最近的SOREL-20M数据集[11]。我们在表一中总结了它们的主要特征。

[30] Survey of machine learning techniques for malware analysis. (2019 C&S)

[5] Ember: an open dataset for training static pe malware machine learning models

[11] SOREL-20M: A Large Scale Benchmark Dataset for Malicious PE Detection

[6] Scalable, behavior-based malware clustering (2009 NDSS)

[28] Exploring backdoor poisoning attacks against malware classifiers

[10] Maldae: Detecting and explaining malware based on correlation and fusion of static and dynamic characteristics. (2019 C&S)

[20]