当前位置：主页 > 查看内容

SoReL-20M: 2000万恶意软件样本数据集开源

发布时间：2021-06-05 00:00| 有位朋友查看

简介：12月14日，网络安全公司Sophos和 ReversingLabs联发布史上最大规模恶意软件研究数据集SoReL-20M，旨在构建有效的防御能力，增强安全检测和响应的能力。 SoReL-20M是一个含有2000万Windows PE文件元数据、标签和特征的数据集，其中包含1000万去除恶意软件功能……

12月14日，网络安全公司Sophos和 ReversingLabs联发布史上最大规模恶意软件研究数据集——SoReL-20M，旨在构建有效的防御能力，增强安全检测和响应的能力。

SoReL-20M是一个含有2000万Windows PE文件元数据、标签和特征的数据集，其中包含1000万去除恶意软件功能的恶意软件样本，目标是为设计检测恶意软件的机器学习方法提供足够的数据集。同时开源的还有在这些数据上预训练的基于PyTorch 和 LightGBM的机器学习模型作为基准。

自然语言处理和图像处理领域都有很多公开的数据集，比如MNIST、ImageNet、CIFAR-10、IMDB Reviews、Sentiment140和WordNet。与自然语言处理和图像处理领域不同的是，标准化的、标记的数据集对网络安全来说是非常具有挑战性的，因为有很多个人识别的信息、敏感的网络基础设施数据、个人知识产权数据等，更何况要把恶意软件提供给未知的第三方。

2018年发布的EMBER(Endgame Malware BEnchmark for Research)是一个开源的恶意软件分类器，其中只有110万恶意样本，其功能只是单一的标记数据集(恶意软件或非恶意软件)，也就是说会限制试验的范围。

SoReL-20M的目标是通过2000万的PE 恶意软件样本来解决这一问题，其中含有1000万去除恶意软件功能的恶意软件样本(无法执行)，以及1000万非恶意软件中提取的特征和元数据。

此外，该方法使用基于机器学习的标记模型来生成指定恶意软件样本重要特征的人类可理解的语义描述。

SoReL-20M 的发布与近期业界动向是一致的。20年10月，微软发布了对抗机器学习威胁矩阵来帮助安全分析人员检测、响应和修复针对机器学习系统的对抗攻击。

ReversingLabs研究人员称，安全领域威胁情报共享的思想并不新鲜，但是是非常关键的。人工智能和机器学习已经成为检测新的恶意软件和定向攻击软件的关键，而且应用也越来越广泛。

Github 页面：https://github.com/sophos-ai/SOREL-20M

关于SOREL-20M的论文SOREL-20M：A Large Scale Benchmark Dataset for Malicious PE Detection 下载地址：https://arxiv.org/abs/2012.07634

更多参见：https://ai.sophos.com/2020/12/14/sophos-reversinglabs-sorel-20-million-sample-malware-dataset/

本文翻译自：https://ai.sophos.com/2020/12/14/sophos-reversinglabs-sorel-20-million-sample-malware-dataset/如若转载，请注明原文地址。

本文转载自网络，原文链接：https://www.4hou.com/posts/Pg1W
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：2020远程办公的头号漏洞：远程桌面协议（RDP） 下一篇：第十四届中国企业年终评选揭晓，联通大数据、浪潮、好扑、联想入

随机推荐

你好2021，这些安全挑战一起来了解下！

2020年是艰难的一年。但是，临近新的一年，我们应该对新的一年有所希望和憧憬。...
Google 发布开源项目的漏洞披露指南

近日，Google 发布了开源项目中关于协作漏洞披露的指南，旨在普及开源安全性相关...
FreakOut 僵尸网络分析

近日，Check Point研究人员发现了一系列与FreakOut 僵尸网络相关的攻击活动，主...
区块链世界的中心应该是什么？

在写这篇文章的时候，我曾经想过无数个答案，有项目方、投资者、机构、政府等等...
简短的空间说说：我可以惯着你，也可以换

1．只是因为在人群中多看了他一眼，他就让你上黑板答题。 2．就算我们关系再好，...
区块链的前世与今生：架构模型与核心技术

区块链（Blockchain）是多方参与的、分布式的、复制式的账本技术。其本质为，不...
黑客60万美元出售疑似Windows 10源代码

据外媒报道，自新年开始Microsoft确认在其内部环境中检测到SolarWinds Orion平台...
比特币是一种好的货币形式吗？

比特币和普通的货币相比有什么不同，它是一种好的货币形式吗? 比特币的出现让人...
银行业迈向区块链改革的五个障碍

区块链是数字革命的下一步，这项技术将改变每个行业。与金钱相比，它远远超出了...
比特币市值突破1万亿美元大关，哪些人在

随着比特币创下新高，其市值有史以来首次突破1万亿美元。据全球排名数据AssetDas...

SoReL-20M: 2000万恶意软件样本数据集开源

推荐图文

贪心算法：我要监控二叉树！

数字人民币优化我国货币支付体系

瑞银：加密货币永远无法成为真正的货币

Firefox 86 将支持 “Total Cookie Protection”，

很赞的语录：做一个单纯的人，走一段幸福的路

盛邦安全创新方案入选IDC《网络空间地图市场洞察》

随机推荐

你好2021，这些安全挑战一起来了解下！

Google 发布开源项目的漏洞披露指南

FreakOut 僵尸网络分析

区块链世界的中心应该是什么？

简短的空间说说：我可以惯着你，也可以换

区块链的前世与今生：架构模型与核心技术

黑客60万美元出售疑似Windows 10源代码

比特币是一种好的货币形式吗？

银行业迈向区块链改革的五个障碍

比特币市值突破1万亿美元大关，哪些人在

关于我们