安全场景(0)AI+安全概述

AI-for-Security-Learning

##### 404notf0und/AI-for-Security-Learning

杨秀章

一 、恶意加密流量数据

工具:

cicflowmeter,一款流量特征提取工具,该工具输入pcap文件,输出pcap文件中包含的数据包的特征信息(80多维)

1.1 机器学习检测Cobalt Strike木马初探

https://www.freebuf.com/articles/network/279190.html

通过机器学习分析cobalt strike的通信包,找出通信规律,然后用这个规律对新的通信包进行检测。

数据集

cobalt strike恶意通信的心跳包,无需抓指令包

TCP特征:每秒传输的数据包字节数、流包率,即每秒传输的数据包数、每秒前向包的数量、正向数据包的总大小、数据包在正向的平均大小、数据包正向标准偏差大小、流的最大长度、最小包到达间隔时间等等。

Microsoft Network Monitor 3.4 https://www.microsoft.com/en-us/download/details.aspx?id=4865

二、恶意软件

==阿里云安全==:win32程序在沙箱中运行的API序列信息,训练集11w条程序记录,测试集5w条程序记录。6类程序中正常程序特别多,病毒程序偏少。

如图所示赛题数据按照文件file_id进行组织:每个文件file_id对应一个文件标签,即文件的病毒标签;每个文件file_id可能由一个或者多个线程tid组成。每个线程tid由一个api或者多个api组成,每个api对应一个返回值,api的次序关系由index表示。

img

  • 统计特征:统计API的出现次数、类型统计以及API返回值的统计特征;
  • 图模型特征:将API序列转换成API图的边,统计有向图的相关的特征;
  • 时序特征:API序列的出现次数等时序特征,API返回值的时序特征;

==LSTM + API==

PDF malware

  • Malware Analysis – Dissecting PDF file:https://github.com/filipi86/MalwareAnalysis-in-PDF

三 、DDOS

在攻击感知方面,可从宏观攻击流感知与微观检测方法两个角度,分别基于IP流序列谱分析的泛洪攻击低速率拒绝服务(Low-rate Denial of Service,LDoS)方法进行感知。在此基础上,将DDoS攻击检测转化为机器学习的二分类问题。

基于多特征并行隐马尔科夫模型(Multi-FeatureParallel Hidden Markov Model,MFP-HMM)的DDoS攻击检测方法,利用HMM隐状态序列与特征观测序列的对应关系,将攻击引起的多维特征异常变化转化为离散型随机变量,通过概率计算来刻画当前滑动窗口序列与正常行为轮廓的偏离程度。

四、WEB安全

Web安全是指个人用户在Web相关操作时不因偶然或恶意的原因受到破坏、更改、泄露。除了现有的SQL注入检测、XSS攻击检测等 AI应用,本部分将列举“恶意URL检测”与“ Webshell检测”两例。后续实验部分,作者将详细描述Python实现该过程。

恶意URL检测

基于机器学习,从 URL特征、域名特征、Web特征的关联分析,使恶意URL识别具有高准确率

开源工具如Phinn:Phinn使用了机器学习领域中的卷积神经网络算法来生成和训练一个自定义的Chrome扩展,这个 Chrome扩展可以将用户浏览器中呈现的页面与真正的登录页面进行视觉相似度分析,以此来识别出恶意URL(钓鱼网站)。

Webshell检测

Webshell常常被称为匿名用户(入侵者)通过网站端口对网站服务器的某种程度上操作的权限。由于Webshell其大多是以动态脚本的形式出现,也有人称之为网站的后门工具。在攻击链模型中,整个攻击过程分为:踩点、组装、投送、攻击、植入、控制、行动。在针对网站的攻击中,通常是利用上传漏洞,上传Webshell,然后通过Webshell进一步控制web服务器。

通过词袋&TF-IDF模型、Opcode&N-gram模型、Opcode调用序列模型等特征抽取方式,采用合适的模型,如朴素贝叶斯和深度学习的MLP、CNN等,实现Webshell的检测。类似地,也可进行SQL注入、 XSS攻击检测等。

五、入侵检测与防御

入侵检测与防御是指对入侵行为的发现并采取相应的防御行动。除了现有的内网入侵检测等AI应用,本部分将列举“APT检测与防范”与“C2链接分析”两例。

5.1 APT检测与防范

进行APT攻击的攻击者从侦查目标,制作攻击工具,传递攻击工具,利用漏洞或者弱点来进行突防,拿下全线运行工具,后期远端的维护这个工具,到最后达到了长期控制目标的目的。针对这种现在日益广泛的APT 攻击,威胁情报存在于整个攻击的各个环节。

威胁情报是基于证据的描述威胁的一组关联的信息,包括威胁相关的环境信息,如具体的攻击组织恶意域名。恶意域名又包括远控的IOC恶意文件的HASHURL以及威胁指标之间的关联性,时间纬度上攻击手法的变化。这些信息汇总在一起形成高级威胁情报。除此之外,所关注的情报,还包括传统威胁种类的扩充,包括木马远控,僵尸网络,间谍软件, Web后门等。利用机器学习来处理威胁情报,检测并识别出APT攻击中的恶意载荷,提高APT攻击威胁感知系统的效率与精确性,让安全研究人员能更快实现 APT攻击的发现和溯源。

==5.1 DGA域名检测——C2链接分析== DGA(域名生成算法)是一种利用随机字符来生成C2域名,从而逃避域名黑名单检测的技术手段。而有了DGA域名生成算法,攻击者就可以利用它来生成用作域名的伪随机字符串,这样就可以有效的避开黑名单列表的检测。伪随机意味着字符串序列似乎是随机的,但由于其结构可以预先确定,因此可以重复产生和复制。该算法常被运用于远程控制软件上。

安全 + AI的问题和难点

Fuzzing漏洞挖掘

杨秀章