3.7 恶意代码研究常用数据集
根据已公开发表的论文信息,当前开展恶意代码检测研究所使用的数据集主要有三种类型,其应用情况如表3-17所示。
(1)公开可用数据集
当前公开发表的论文大多使用网络安全领域中那些公开下载的数据集作为研究对象。这些数据集由全世界网络安全领域的研究爱好者共同维护,并且一直在持续更新,可供研究人员免费使用。
(2)公司商业数据集
也有一些成果是由公司背景的项目支持,所使用的数据集也是由公司提供。这些数据集通常不能公开免费使用。
(3)人工生成的数据集
还有一些项目,在研究过程中需要由研究人员自行生成研究所需的样本,通常是采用一些工具自动化地生成样本;或者是自行从网络中捕获样本进行分析。
表3-17 恶意代码研究常用数据集
