跳转至

转载、改写自Awesome Machine Learning for Cyber SecurityAwesome-Cybersecurity-Datasets机器学习之安全数据集 - wstart

安全领域数据集

目录

综合数据集

网络类数据集

  • HIKARI-2021 Datasets
  • Samples of Security Related Data
  • DARPA Intrusion Detection Data Sets [ 1998 / 1999 ]
  • Stratosphere IPS Data Sets
  • Open Data Sets
  • Data Capture from National Security Agency
  • The ADFA Intrusion Detection Data Sets
    • ADFA IDS Datasets 是澳大利亚国防大学发布的一套关于HIDS的数据集。分为Linux(ADFA-LD)和Windows(ADFA-WD)
    • 内容类型:主机行为
    • 是否特征化:是
    • 使用范围:入侵检测
  • NSL-KDD Data Sets
  • Malicious URLs Data Sets
  • Multi-Source Cyber-Security Events
  • KDD Cup 1999 Data
    • KDD竞赛在1999年举行时采用的数据集。1998年美国国防部高级规划署(DARPA)在MIT林肯实验室进行了一项入侵检测评估项目收集而来的数据
    • 内容类型:网络流量、主机行为
    • 是否特征化:是
    • 适用范围:主机入侵检测、异常流量监控
  • Web Attack Payloads
  • WAF Malicious Queries Data Sets
  • Malware Training Data Sets
  • Aktaion Data Sets
  • CRIME Database from DeepEnd Research
  • Publicly available PCAP files
  • 2007 TREC Public Spam Corpus
  • Drebin Android Malware Dataset
  • PhishingCorpus Datset
  • EMBER
  • Vizsec Research
  • SHERLOCK
  • Probing / Port Scan - Dataset
  • Aegean Wireless Intrusion Dataset (AWID)
  • HTTP DATASET CSIC 2010
    • HTTP DATASET CSIC 2010 包含已经标注过的针对web服务的请求。数据量约5w条。下载地址已经为我们分类好了训练用的正常数据,测试用的正常数据,测试用的异常数据
    • 内容类型:网络流量
    • 是否特征化:否
    • 使用范围:WAF类产品、异常流量监控
  • honeypot.json
    • honeypot 是由多种类型的蜜罐采集回来的数据。主要是WEB请求。约99万条数据。由于没有分类和规整,需要自己数据清洗,也可以用作校验模型的数据
    • 内容类型:网络流量
    • 是否特征化:否
    • 使用范围:WAF类产品、异常流量监控
  • Masquerading User Data
    • Masquerading User Data(也被称为SEA数据集) 是Matthias Schonlau 教授通过正常数据构造出来用于训练和检测 Masquerading User攻击的数据集(内部攻击者分为两种,一种是内鬼[Traitor],一种是窃取了身份凭证的正常用户的伪装者[Masquerading User])由于是构造出来的数据,缺乏实际攻击的真实性,在一定程度上,训练出来的模型会存在一定的过拟
    • 内容类型:主机行为
    • 是否特征化:否
    • 使用范围:入侵检测类、用户异常行为识别
  • 360DGA
    • 360安全厂商提供的DGA数据集,用于DAG域名检测,可作为黑样本
    • 内容类型:文本样本
    • 是否特征化:否
    • 使用范围:入侵检测、异常流量、WAF
  • Gameover Zeus DGA sample 2014
    • Zeus P2P僵尸网络的DGA恶意样本数据
    • 内容类型:文本样本
    • 是否特征化:否
    • 使用范围:入侵检测、异常流量、WAF
  • auth.log
    • auth.log 主要是都是登录失败的日志 适合用作判断是爆破登录还是正常的输错密码
    • 内容类型:主机行为
    • 是否特征化:否
    • 使用范围:入侵检测、异常流量、WAF
  • malicious-URLs
    • malicious-URLs 在Github上面一个 使用机器学习去检测恶意URL的项目 ,里面有一个训练集,有做标记是正常的URL还是恶意的URL
    • 内容类型:文本样本
    • 是否特征化:否
    • 使用范围:入侵检测、异常流量、WAF
  • The Malware Capture Facility Project
    • MCFP 是捷克理工大学 (CTU)用于捕抓恶意软件的而抓去的网络流量。里面的数据非常多,有他们自己分析出来的恶意流量,也有所有的流量,包括网络文件、日志、DNS请求等
    • 内容类型:网络流量
    • 是否特征化:否
    • 使用范围:异常流量、WAF
  • MalwareDB
    • 恶意软件库,包含恶意软件列表hash、检测结果、所属域名等数据
    • 内容类型:文本样本
    • 使用范围::特征库、入侵检测
  • flightsim
    • 一个工具,可以生成数据恶意流量数据,模拟DNS隧道、DGA通信、对活跃的C2服务器请求和其他一些可疑的流量数据
    • 内容类型:网络流量(模拟)
    • 是否特征化:否
    • 使用范围:异常流量、WAF、入侵检测
  • mordor
    • 模拟攻防对抗生成的安全事件数据,以JSON格式提供,并且按照ATT&CK框架的定义。可以用于对攻防技术(TTPs)的检测。说明文档
    • 内容类型:文本样本
    • 是否特征化:否
    • 适用范围:入侵检测、行为识别

恶意软件数据集

  • UNSW-NB15 data set

    • 该数据集包含九种攻击类型,分别为:模糊攻击(Fuzzers)、分析(Analysis)、后门(Backdoors)、拒绝服务攻击(DoS)、利用(Exploits)、通用(Generic)、侦察(Reconnaissance)、Shellcode 和蠕虫(Worms)
    • 使用了Argus、Bro-IDS工具,并开发了十二种算法,以生成包含类别标签的共49个特征
  • Malware Training Sets

    • 该数据集的组成为:APT1 292个样本,Crypto 2024个样本,Locker 434个样本,Zeus 2014个样本
  • The Drebin Dataset

    • 该数据集包含来自179个不同恶意软件家族的5,560个应用程序样本。样本收集时间为2010年8月至2012年10月,由MobileSandbox项目提供
  • Stratosphere IPS

    • 该数据集包含恶意软件捕获、正常捕获、混合捕获等
  • Microsoft Malware Classification Challenge

    • 该数据集提供了一组已知的恶意软件文件,代表9个不同家族的混合。每个恶意软件文件都有一个ID,一个20字符的哈希值,用于唯一识别文件,以及一个类别,一个整数,代表9个家族名称之一。
  • Javascript Vulnerability Dataset

    • 该数据集是根据Node Security Project和Snyk平台的公共数据库中的漏洞信息,以及GitHub上的代码修复补丁构建的
  • ember

    • ember数据集是一个包含了2017年某个时候扫描的110万个PE文件的sha256哈希集合
    • 该数据便于可重现地训练基准模型,扩展提供的特征集,或使用基准模型对新的PE文件进行分类

邮件数据集

  • SpamBase
    • 一个入门级的垃圾邮件分类训练集,已被特征化处理。特征为统计的关键字、特殊符号的词频等,一共58个属性,最后一位是垃圾邮件标记位
    • 内容类型:文本样本、邮件(特征化)
    • 是否特征化:是
    • 适用范围:垃圾邮件检测
  • 2007 TREC Public Spam Corpus
  • SPAM list

欺诈数据集

  • Credit Card Fraud
    • 信用卡交易数据集,该数据集包含了2013年9月欧洲卡持有人进行的信用卡交易。数据集呈现了两天内发生的交易情况,其中共有284,807笔交易,492笔为欺诈行为。该数据集占比非常不平衡,积极类别(欺诈行为)占所有交易的0.172%。

蜜罐数据集

  • DDS Dataset Collection

    • 来自AWS蜜罐集合的tar/gzip格式的CSV文件
    • 包含域名的zip格式CSV文件,以及对dga(域名生成算法)或合法域名的高级分类,及其子类别,包括合法、cryptolocker、gox或newgoz
  • Threat_Research - Centralized repository to dump threat research data gathered from my network of honeypots.

钓鱼数据集