12月14日,网络安全公司Sophos和 ReversingLabs联发布史上最大规模恶意软件研究数据集——SoReL-20M,旨在构建有效的防御能力,增强安全检测和响应的能力。
SoReL-20M是一个含有2000万Windows PE文件元数据、标签和特征的数据集,其中包含1000万去除恶意软件功能的恶意软件样本,目标是为设计检测恶意软件的机器学习方法提供足够的数据集。同时开源的还有在这些数据上预训练的基于PyTorch 和 LightGBM的机器学习模型作为基准。
自然语言处理和图像处理领域都有很多公开的数据集,比如MNIST、ImageNet、CIFAR-10、IMDB Reviews、Sentiment140和WordNet。与自然语言处理和图像处理领域不同的是,标准化的、标记的数据集对网络安全来说是非常具有挑战性的,因为有很多个人识别的信息、敏感的网络基础设施数据、个人知识产权数据等,更何况要把恶意软件提供给未知的第三方。
2018年发布的EMBER(Endgame Malware BEnchmark for Research)是一个开源的恶意软件分类器,其中只有110万恶意样本,其功能只是单一的标记数据集(恶意软件或非恶意软件),也就是说会限制试验的范围。
SoReL-20M的目标是通过2000万的PE 恶意软件样本来解决这一问题,其中含有1000万去除恶意软件功能的恶意软件样本(无法执行),以及1000万非恶意软件中提取的特征和元数据。
此外,该方法使用基于机器学习的标记模型来生成指定恶意软件样本重要特征的人类可理解的语义描述。
SoReL-20M 的发布与近期业界动向是一致的。20年10月,微软发布了对抗机器学习威胁矩阵来帮助安全分析人员检测、响应和修复针对机器学习系统的对抗攻击。
ReversingLabs研究人员称,安全领域威胁情报共享的思想并不新鲜,但是是非常关键的。人工智能和机器学习已经成为检测新的恶意软件和定向攻击软件的关键,而且应用也越来越广泛。
Github 页面:https://github.com/sophos-ai/SOREL-20M
关于SOREL-20M的论文SOREL-20M:A Large Scale Benchmark Dataset for Malicious PE Detection 下载地址:https://arxiv.org/abs/2012.07634
更多参见:https://ai.sophos.com/2020/12/14/sophos-reversinglabs-sorel-20-million-sample-malware-dataset/
本文翻译自:https://ai.sophos.com/2020/12/14/sophos-reversinglabs-sorel-20-million-sample-malware-dataset/如若转载,请注明原文地址。
2020年是艰难的一年。但是,临近新的一年,我们应该对新的一年有所希望和憧憬。...
近日,Google 发布了开源项目中关于协作漏洞披露的指南,旨在普及开源安全性相关...
近日,Check Point研究人员发现了一系列与FreakOut 僵尸网络相关的攻击活动,主...
在写这篇文章的时候,我曾经想过无数个答案,有项目方、投资者、机构、政府等等...
1.只是因为在人群中多看了他一眼,他就让你上黑板答题。 2.就算我们关系再好,...
区块链(Blockchain)是多方参与的、分布式的、复制式的账本技术。其本质为,不...
据外媒报道,自新年开始Microsoft确认在其内部环境中检测到SolarWinds Orion平台...
比特币和普通的货币相比有什么不同,它是一种好的货币形式吗? 比特币的出现让人...
区块链是数字革命的下一步,这项技术将改变每个行业。与金钱相比,它远远超出了...
随着比特币创下新高,其市值有史以来首次突破1万亿美元。据全球排名数据AssetDas...