公开/公告号CN114662111A
专利类型发明专利
公开/公告日2022-06-24
原文格式PDF
申请/专利权人 成都数默科技有限公司;
申请/专利号CN202210537144.5
申请日2022-05-18
分类号G06F21/56;G06F21/57;
代理机构成都天嘉专利事务所(普通合伙);
代理人赵凯
地址 610000 四川省成都市中国(四川)自由贸易试验区成都高新区天府大道北段28号1栋2单元15层06号
入库时间 2023-06-19 15:46:15
法律状态公告日
法律状态信息
法律状态
2022-06-24
公开
发明专利申请公布
技术领域
本发明涉及到网络安全技术领域,尤其涉及一种恶意代码软件基因同源性分析方法。
背景技术
现有的木马家族分类技术,主要依赖于静态特征,如二进制,这种方法主要依赖于对恶意代码进行静态信息检测,然后与已知的木马家族进行匹配,这类方法有一定的误报率,如多个方向的黑客组织用同一套木马文件生成框架,如果仅依赖单一的静态特征,就不能将黑客组织进行有效的同源性细分。
现有的技术方法依赖于单一的文件特征,没有进行多维度的研究判断,容易产生误判和新型未知病毒木马同源性识别不足的缺陷,其主要的缺点如下:
1、依赖于单一的某个特征规则的检测,误报率高;
2、仅能针对已知的木马家族和APT组织进行同源性分类;
3、对未知的木马家族和APT组织,不能进行有效的同源性分析。
公开号为CN104866765A,公开日为2015年08月26日的中国专利文献公开了一种基于行为特征相似性的恶意代码同源性分析方法,包括指令和数据记录模块、特征提取模块和同源性判别模块,其特征在于,分析过程如下:
首先,指令和数据记录模块以动态二进制插桩平台为基础,在一个受保护的虚拟环境中执行恶意代码样本,通过插桩分析关键指令,记录程序在函数入口点、返回点、内存读写点关键位置上的数据,结合API参数格式解析库,得到库中定义的关键API的调用序列和参数信息;
然后,特征提取模块以API调用序列及其参数信息作为输入,结合行为规则库,在构建API关联关系树的基础上提取行为特征;
最后,同源性判别模块将两个恶意代码的行为特征作为输入,通过对行为特征相似性比较来对恶意代码的同源性进行判别最终得到结果分析报告,并将不同样本的特征写入恶意代码特征库中。
该专利文献公开的基于行为特征相似性的恶意代码同源性分析方法,能够反映恶意代码样本之间的同源性,区分不具有同源性的恶意代码样本。但是,同源性判别方式较为单一,仅依赖于行为特征库,即恶意程序在虚拟环境中的动态行为,如文件操作行为、注册表行为、网络行为、进程行为及服务执行行为这些动态分析结果作为关键数据,随着网络空间安全对抗形式的升级,在当前复杂的网络形势下,因同源性对比条件单一,致使误报率较高,对未知木马同源性归类缺失,给安全分析工作造成困扰和误区。
发明内容
本发明为了克服上述现有技术的缺陷,提供一种恶意代码软件基因同源性分析方法,本发明采用对所有高危病毒木马文件的行为进行知识图谱的基因库建设,当指定样本或海量样本进行同源性分析时,利用基因匹配达到高同源性判别,能够极大的提高已知病毒木马的基因同源性分析准确度和未知病毒木马的同源性精细化归类。
本发明通过下述技术方案实现:
一种恶意代码软件基因同源性分析方法,其特征在于,包括以下步骤:
a、导入文件,与内置的恶意文件样本进行匹配,判别出木马家族;
b、对文件进行静态分析和动态分析,并结合网络日志进行同源性判别;
c、将步骤b同源性判别后的数据与APT基因库进行匹配,判别出文件的APT组织;
d、根据网络日志数据,对导入的文件进行攻击类别分析归类;
e、根据静态分析,对导入的文件进行释放文件格式归类;
f、根据漏洞利用的动态分析结果,对导入的文件进行漏洞利用类型归类;
g、通过C2通讯释放文件行为的动态分析结果,将文件的dropper特征进行归类;
h、将文件按照开发语言进行归类,进行反调试检测和IOC特征匹配;
i、进行已知木马同源性分析和未知木马同源性分析,将未知木马同源性和已知木马同源性进行比对,发现新的黑客组织或APT组织。
所述步骤a中,导入文件具体是指导入单个文件或多个文件,当导入多个文件时,多个文件之间进行比对,分析出多个文件是否具备同源性。
所述步骤b中,静态分析具体是指通过文件名称、文件格式和文件大小的分析结果,以及反病毒引擎检测出的木马类型和木马家族进行数据的提取。
所述步骤b中,动态分析具体是指将文件在虚拟环境中的文件操作行为、注册表行为、网络行为、进程行为、服务执行、漏洞利用和C2释放文件行为的动态分析结果作为关键数据。
所述步骤b中,网络日志具体是指将文件传输或投递的网络日志五元组信息,导入到计算机系统作为辅助研判数据。
所述步骤c中,APT基因库具体是指内置有全球黑客组织或APT组织的知识库。
所述步骤d中,攻击类别分析归类具体是指通过网络日志数据,判别是钓鱼邮件攻击、web网站攻击、钓鱼U盘或社会工程学攻击。
所述步骤f中,漏洞利用类型归类具体是指归类为办公软件漏洞、多媒体文件漏洞、系统漏洞或浏览器漏洞。
所述步骤g中,C2通讯具体是指文件的网络行为中,通过云服务、DGA域名、标准加密协议、私有加密协议或隐蔽信道连接代理服务器。
所述步骤h中,反调试检测包括反病毒引擎进程检测、沙箱进程检测、虚拟机进程检测和调试工具检测。
所述步骤h中,IOC特征匹配具体是指通过网络行为的动态分析结果与内置的IOC威胁指标库进行匹配,完成IOC特征归类。
所述步骤i中,已知木马同源性分析具体是指将文件的dropper特征和IOC特征与内置的样本库的特征进行匹配,根据匹配结果,判别出已知木马同源性。
所述步骤i中,未知木马同源性分析具体是指当内置的样本库判定为木马且未研判到木马家族,则将未知木马家族的样本进行同源性归类。
本发明所述APT是指高级可持续性攻击。
本发明所述C2是指代理服务器。
本发明所述dropper是指释放文件。
本发明所述IOC是指威胁指标。
本发明所述DGA是指利用算法产生速变域名。
本发明所述API是指应用程序编程接口。
本发明的有益效果主要表现在以下方面:
1、本发明,采用对所有高危病毒木马文件的行为进行知识图谱的基因库建设,当指定样本或海量样本进行同源性分析时,利用基因匹配达到高同源性判别,能够极大的提高已知病毒木马的基因同源性分析准确度和未知病毒木马的同源性精细化归类。
2、本发明,采用了内外数据结合的分析方式,不仅利用文件在虚拟机中的行为关键数据,还借助了文件关联的网络日志及威胁情报知识库这些外部数据,实现内外分析结合,提高了木马家族和APT组织的同源性识别准确率,降低了同源性分析的误报率。
3、本发明,采用了网络日志辅助分析决策,改变了传统的仅依赖于文件自身信息和行为的分析方式,利用网络日志将文件做了属性归类,对于同源性分析,判断是否为恶意文件和恶意文件攻击方式进行了研判,对于网络流量中捕获的文件,木马家族和APT组织的同源性识别准确率更高。
4、本发明,通过采用APT基因库,对于已知木马家族同源性分析的准确率和检出率,都具有明显的提高,同时也提高了海量文件的分析效率。
5、本发明,对于未知家族或组织的高危文件,能根据多种基因判别方式,实现精准分类。
附图说明
下面将结合说明书附图和具体实施方式对本发明作进一步的具体说明:
图1为本发明的流程框图。
具体实施方式
实施例1
参见图1,一种恶意代码软件基因同源性分析方法,包括以下步骤:
a、导入文件,与内置的恶意文件样本进行匹配,判别出木马家族;
b、对文件进行静态分析和动态分析,并结合网络日志进行同源性判别;
c、将步骤b同源性判别后的数据与APT基因库进行匹配,判别出文件的APT组织;
d、根据网络日志数据,对导入的文件进行攻击类别分析归类;
e、根据静态分析,对导入的文件进行释放文件格式归类;
f、根据漏洞利用的动态分析结果,对导入的文件进行漏洞利用类型归类;
g、通过C2通讯释放文件行为的动态分析结果,将文件的dropper特征进行归类;
h、将文件按照开发语言进行归类,进行反调试检测和IOC特征匹配;
i、进行已知木马同源性分析和未知木马同源性分析,将未知木马同源性和已知木马同源性进行比对,发现新的黑客组织或APT组织。
本实施例为最基本的实施方式,采用对所有高危病毒木马文件的行为进行知识图谱的基因库建设,当指定样本或海量样本进行同源性分析时,利用基因匹配达到高同源性判别,能够极大的提高已知病毒木马的基因同源性分析准确度和未知病毒木马的同源性精细化归类。
实施例2
参见图1,一种恶意代码软件基因同源性分析方法,包括以下步骤:
a、导入文件,与内置的恶意文件样本进行匹配,判别出木马家族;
b、对文件进行静态分析和动态分析,并结合网络日志进行同源性判别;
c、将步骤b同源性判别后的数据与APT基因库进行匹配,判别出文件的APT组织;
d、根据网络日志数据,对导入的文件进行攻击类别分析归类;
e、根据静态分析,对导入的文件进行释放文件格式归类;
f、根据漏洞利用的动态分析结果,对导入的文件进行漏洞利用类型归类;
g、通过C2通讯释放文件行为的动态分析结果,将文件的dropper特征进行归类;
h、将文件按照开发语言进行归类,进行反调试检测和IOC特征匹配;
i、进行已知木马同源性分析和未知木马同源性分析,将未知木马同源性和已知木马同源性进行比对,发现新的黑客组织或APT组织。
进一步的,所述步骤a中,导入文件具体是指导入单个文件或多个文件,当导入多个文件时,多个文件之间进行比对,分析出多个文件是否具备同源性。
进一步的,所述步骤b中,静态分析具体是指通过文件名称、文件格式和文件大小的分析结果,以及反病毒引擎检测出的木马类型和木马家族进行数据的提取。
进一步的,所述步骤b中,动态分析具体是指将文件在虚拟环境中的文件操作行为、注册表行为、网络行为、进程行为、服务执行、漏洞利用和C2释放文件行为的动态分析结果作为关键数据。
进一步的,所述步骤b中,网络日志具体是指将文件传输或投递的网络日志五元组信息,导入到计算机系统作为辅助研判数据。
本实施例为一较佳实施方式,采用了内外数据结合的分析方式,不仅利用文件在虚拟机中的行为关键数据,还借助了文件关联的网络日志及威胁情报知识库这些外部数据,实现内外分析结合,提高了木马家族和APT组织的同源性识别准确率,降低了同源性分析的误报率。
实施例3
参见图1,一种恶意代码软件基因同源性分析方法,包括以下步骤:
a、导入文件,与内置的恶意文件样本进行匹配,判别出木马家族;
b、对文件进行静态分析和动态分析,并结合网络日志进行同源性判别;
c、将步骤b同源性判别后的数据与APT基因库进行匹配,判别出文件的APT组织;
d、根据网络日志数据,对导入的文件进行攻击类别分析归类;
e、根据静态分析,对导入的文件进行释放文件格式归类;
f、根据漏洞利用的动态分析结果,对导入的文件进行漏洞利用类型归类;
g、通过C2通讯释放文件行为的动态分析结果,将文件的dropper特征进行归类;
h、将文件按照开发语言进行归类,进行反调试检测和IOC特征匹配;
i、进行已知木马同源性分析和未知木马同源性分析,将未知木马同源性和已知木马同源性进行比对,发现新的黑客组织或APT组织。
所述步骤a中,导入文件具体是指导入单个文件或多个文件,当导入多个文件时,多个文件之间进行比对,分析出多个文件是否具备同源性。
所述步骤b中,静态分析具体是指通过文件名称、文件格式和文件大小的分析结果,以及反病毒引擎检测出的木马类型和木马家族进行数据的提取。
所述步骤b中,动态分析具体是指将文件在虚拟环境中的文件操作行为、注册表行为、网络行为、进程行为、服务执行、漏洞利用和C2释放文件行为的动态分析结果作为关键数据。
所述步骤b中,网络日志具体是指将文件传输或投递的网络日志五元组信息,导入到计算机系统作为辅助研判数据。
进一步的,所述步骤c中,APT基因库具体是指内置有全球黑客组织或APT组织的知识库。
进一步的,所述步骤d中,攻击类别分析归类具体是指通过网络日志数据,判别是钓鱼邮件攻击、web网站攻击、钓鱼U盘或社会工程学攻击。
本实施例为又一较佳实施方式,采用了网络日志辅助分析决策,改变了传统的仅依赖于文件自身信息和行为的分析方式,利用网络日志将文件做了属性归类,对于同源性分析,判断是否为恶意文件和恶意文件攻击方式进行了研判,对于网络流量中捕获的文件,木马家族和APT组织的同源性识别准确率更高。
实施例4
参见图1,一种恶意代码软件基因同源性分析方法,包括以下步骤:
a、导入文件,与内置的恶意文件样本进行匹配,判别出木马家族;
b、对文件进行静态分析和动态分析,并结合网络日志进行同源性判别;
c、将步骤b同源性判别后的数据与APT基因库进行匹配,判别出文件的APT组织;
d、根据网络日志数据,对导入的文件进行攻击类别分析归类;
e、根据静态分析,对导入的文件进行释放文件格式归类;
f、根据漏洞利用的动态分析结果,对导入的文件进行漏洞利用类型归类;
g、通过C2通讯释放文件行为的动态分析结果,将文件的dropper特征进行归类;
h、将文件按照开发语言进行归类,进行反调试检测和IOC特征匹配;
i、进行已知木马同源性分析和未知木马同源性分析,将未知木马同源性和已知木马同源性进行比对,发现新的黑客组织或APT组织。
所述步骤a中,导入文件具体是指导入单个文件或多个文件,当导入多个文件时,多个文件之间进行比对,分析出多个文件是否具备同源性。
所述步骤b中,静态分析具体是指通过文件名称、文件格式和文件大小的分析结果,以及反病毒引擎检测出的木马类型和木马家族进行数据的提取。
所述步骤b中,动态分析具体是指将文件在虚拟环境中的文件操作行为、注册表行为、网络行为、进程行为、服务执行、漏洞利用和C2释放文件行为的动态分析结果作为关键数据。
所述步骤b中,网络日志具体是指将文件传输或投递的网络日志五元组信息,导入到计算机系统作为辅助研判数据。
所述步骤c中,APT基因库具体是指内置有全球黑客组织或APT组织的知识库。
所述步骤d中,攻击类别分析归类具体是指通过网络日志数据,判别是钓鱼邮件攻击、web网站攻击、钓鱼U盘或社会工程学攻击。
进一步的,所述步骤f中,漏洞利用类型归类具体是指归类为办公软件漏洞、多媒体文件漏洞、系统漏洞或浏览器漏洞。
进一步的,所述步骤g中,C2通讯具体是指文件的网络行为中,通过云服务、DGA域名、标准加密协议、私有加密协议或隐蔽信道连接代理服务器。
本实施例为又一较佳实施方式,通过采用APT基因库,对于已知木马家族同源性分析的准确率和检出率,都具有明显的提高,同时也提高了海量文件的分析效率。
实施例5
参见图1,一种恶意代码软件基因同源性分析方法,包括以下步骤:
a、导入文件,与内置的恶意文件样本进行匹配,判别出木马家族;
b、对文件进行静态分析和动态分析,并结合网络日志进行同源性判别;
c、将步骤b同源性判别后的数据与APT基因库进行匹配,判别出文件的APT组织;
d、根据网络日志数据,对导入的文件进行攻击类别分析归类;
e、根据静态分析,对导入的文件进行释放文件格式归类;
f、根据漏洞利用的动态分析结果,对导入的文件进行漏洞利用类型归类;
g、通过C2通讯释放文件行为的动态分析结果,将文件的dropper特征进行归类;
h、将文件按照开发语言进行归类,进行反调试检测和IOC特征匹配;
i、进行已知木马同源性分析和未知木马同源性分析,将未知木马同源性和已知木马同源性进行比对,发现新的黑客组织或APT组织。
所述步骤a中,导入文件具体是指导入单个文件或多个文件,当导入多个文件时,多个文件之间进行比对,分析出多个文件是否具备同源性。
所述步骤b中,静态分析具体是指通过文件名称、文件格式和文件大小的分析结果,以及反病毒引擎检测出的木马类型和木马家族进行数据的提取。
所述步骤b中,动态分析具体是指将文件在虚拟环境中的文件操作行为、注册表行为、网络行为、进程行为、服务执行、漏洞利用和C2释放文件行为的动态分析结果作为关键数据。
所述步骤b中,网络日志具体是指将文件传输或投递的网络日志五元组信息,导入到计算机系统作为辅助研判数据。
所述步骤c中,APT基因库具体是指内置有全球黑客组织或APT组织的知识库。
所述步骤d中,攻击类别分析归类具体是指通过网络日志数据,判别是钓鱼邮件攻击、web网站攻击、钓鱼U盘或社会工程学攻击。
所述步骤f中,漏洞利用类型归类具体是指归类为办公软件漏洞、多媒体文件漏洞、系统漏洞或浏览器漏洞。
所述步骤g中,C2通讯具体是指文件的网络行为中,通过云服务、DGA域名、标准加密协议、私有加密协议或隐蔽信道连接代理服务器。
进一步的,所述步骤h中,反调试检测包括反病毒引擎进程检测、沙箱进程检测、虚拟机进程检测和调试工具检测。
进一步的,所述步骤h中,IOC特征匹配具体是指通过网络行为的动态分析结果与内置的IOC威胁指标库进行匹配,完成IOC特征归类。
进一步的,所述步骤i中,已知木马同源性分析具体是指将文件的dropper特征和IOC特征与内置的样本库的特征进行匹配,根据匹配结果,判别出已知木马同源性。
进一步的,所述步骤i中,未知木马同源性分析具体是指当内置的样本库判定为木马且未研判到木马家族,则将未知木马家族的样本进行同源性归类。
本实施例为最佳实施方式,对于未知家族或组织的高危文件,能根据多种基因判别方式,实现精准分类。
本发明恶意代码软件基因同源性分析过程如下:
从文件程序导入步骤a,执行步骤b文件预分析,根据文件分析结果形成基础数据,再与步骤c-h的分析引擎进行串并关联挖掘,其中步骤c-h内置海量已知或未知典型木马文件,为保证分析准确率,数量达百万级,覆盖APT组织不少于40个,步骤c-h每分析归类成功一次,就积累一次积分,步骤i进行已知木马同源性和未知木马同源性的判断,根据最终归类的结果,进行精准分析,给出同源性等级,发现新的黑客组织或APT组织。
下面采用具体实例对本发明进行详细说明:
对两个文件恶意代码软件基因同源性分析:
文件1
名称:中印边境争端.docx
大小: 605711 bytes
修改时间: 2020年9月2日,11:22:06
文件2
名称:why_saudi_ends_loan_and_oil_supply_to_Pakistan.docx
大小: 830170 bytes
修改时间: 2020年9月2日,11:22:06
步骤c-h同源性分析
诱饵类型:docx
APT基因库:利用eps文件漏洞,关联到文章《疑似摩诃草组织利用边境争端问题为诱饵针对周边地区的攻击活动分析》;
dropper特征:9f7f7d2f.eps
反调试检测:VmwareCplLauncher.exe白文件,加载恶意vmtools.dll文件,利用com组件创建计划任务,周期执行MSBuild.exe文件
武器库:CVE-2017-0261漏洞,FakejLI后门
攻击方式:文档钓鱼
C2:wase.chickenkiller.com
累计积分80分,判断为高同源性,且为已知木马,木马家族为“Donoff”
精准细分
摩诃草组织利用CVE-2017-0261漏洞的钓鱼文档进行攻击;
背景:
此次两个样本利用文档钓鱼的方式进行攻击,利用的漏洞为CVE-2017-026。
样本利用了CVE-2017-0261漏洞,通过构造EPS文件,来执行恶意代码。
MSBuild.exe文件判断是否具有杀软,在内存释放可执行文件,创建自身傀儡进程,注入执行,最终的载荷是第一个样本的远控,是摩诃草组织常用的FakeJLI后门。
可见,采用本发明基因同源性分析方法对已知病毒木马的基因同源性分析准确度较高。
机译: 2D数据分析仪,2D数据分析方法和2D数据分析程序
机译: 因子分析器,因子分析方法和程序
机译: 分析装置及び分析方法