首页> 中国专利> 不正当邮件判定装置、不正当邮件判定方法以及不正当邮件判定程序

不正当邮件判定装置、不正当邮件判定方法以及不正当邮件判定程序

摘要

不正当邮件判定装置(10)具备一贯性解析部(24)。一贯性解析部(24)将新接收到的接收邮件作为对象邮件,通过从对象邮件的正文中提取作为表示发送了对象邮件的理由的单词的功能词之类的方法来确定对象邮件的意图。一贯性解析部(24)根据过去从与对象邮件相同的发件人接收到的其它接收邮件与确定出的对象邮件的意图的关系来判定对象邮件是否为不正当邮件。

著录项

  • 公开/公告号CN112189190A

    专利类型发明专利

  • 公开/公告日2021-01-05

    原文格式PDF

  • 申请/专利权人 三菱电机株式会社;

    申请/专利号CN201880093429.6

  • 发明设计人 山本匠;西川弘毅;河内清人;

    申请日2018-05-22

  • 分类号G06F13/00(20060101);

  • 代理机构11038 中国贸促会专利商标事务所有限公司;

  • 代理人金春实

  • 地址 日本东京

  • 入库时间 2023-06-19 09:24:30

说明书

技术领域

本发明涉及一种探测针对性攻击邮件的技术。

背景技术

Advanced Persistent Threat(高级持续性威胁)之类的针对性攻击大多是将不正当邮件用作攻击的入侵手段的针对性攻击邮件。

在针对性攻击邮件中,利用使用与组织及人之类的攻击对象有关系的信息来巧妙地制作的语句。在针对性攻击邮件中,试图打开附在邮件中的恶性文件,或者试图访问正文中记载的URL(Uniform Resource Locator:统一资源定位符)所表示的恶性的Web站点。

已知关于附件和URL对内容的恶性程度静态或动态地进行解析的现有技术。例如,已知通过确认检查对象的附件是否与已知的恶意软件的模式匹配来探测恶意软件的技术。另外,还存在利用执行文件时的行为特征来探测恶意软件的技术。另外,还存在准备表示恶性的Web站点的URL的黑名单来将用户访问危险的Web站点的情况防患于未然的技术。而且,存在搭载了这些技术的恶意软件探测软件。

但是,越是高级的攻击者,越是在事先确认附件和URL是否被恶意软件探测软件探测到的基础上执行攻击。因此,关于未知的恶意软件和新的恶性的URL,难以适当地探测。

另外,存在根据邮件的头信息的不自然性来探测攻击的技术。在该技术中,基于发件人的发送域认证结果、发送路径、使用邮件软件以及经由国之类的信息判定是否为不正当邮件。但是,在该技术中,无法探测恶意使用正规用户的账户的冒充邮件。

在非专利文献1中记载了探测冒充邮件的技术。

在非专利文献1所记载的技术中,对邮件的发件人本人发出的邮件按词汇级、句法级以及结构级进行分析,制作表示个性的简档(profile)。词汇级是指单词数、以单词为单位的字符数、文本整体的字符数、以行为单位的字符数、行数、语句数、文本中的各个字符的频度以及文的末尾用的字符的频度等。句法级是指形容词的数量、副词的数量、对等连接词的数量以及过去分词的数量等。结构级是指署名、住址以及电话号码之类的确定著者的信息、问候文的形式、文的开头方法以及文的结尾方法等。文的开头方法是指大写字符的数量和小写字符的数量之类。文的结尾方法是指利用空格来分隔语句的语句的数量、利用点来分隔语句的语句的数量、利用点以外的标点符号来分隔语句的语句的数量以及在语句结束后利用空格的语句的数量之类。

在非专利文献1所记载的技术中,根据过去从发件人接收到的邮件来制作发件人的简档,在新接收到的邮件不与简档匹配的情况下判定为冒充邮件。

非专利文献1:Sevtap Duman,Kubra Kalkan Cakmakciy,Manuel Egelez,WilliamRobertson and Engin Kirda:“EmailProfiler:Spearphishing Filtering with Headerand Stylometric Features of Emails”,Computer Software and ApplicationsConference(COMPSAC),2016IEEE 40th Annual

发明内容

发明要解决的问题

但是,在攻击者准确地模仿了冒充对象的人的语句的习惯的情况以及过去的邮件被原样挪用的情况下,即使利用非专利文献1中记载的技术也无法探测。

本发明的目的在于能够适当地探测针对性攻击邮件。

用于解决问题的方案

本发明所涉及的不正当邮件判定装置具备:

意图确定部,将新接收到的接收邮件作为对象邮件,根据所述对象邮件的正文确定所述对象邮件的意图;以及

邮件判定部,根据从与所述对象邮件相同的发件人接收到的其它接收邮件与由所述意图确定部确定出的所述对象邮件的意图的关系,来判定所述对象邮件是否为不正当邮件。

发明的效果

在本发明中,根据从与对象邮件相同的发件人接收到的其它接收邮件与对象邮件的意图的关系来判定对象邮件是否为不正当邮件。由此,能够适当地探测针对性攻击邮件。

附图说明

图1是实施方式1所涉及的不正当邮件判定装置10的结构图。

图2是实施方式1所涉及的初始过滤部21的结构图。

图3是实施方式1所涉及的未知解析部22的结构图。

图4是实施方式1所涉及的已知解析部23的结构图。

图5是实施方式1所涉及的一贯性解析部24的结构图。

图6是实施方式1所涉及的不正当邮件判定装置10的整体的处理的流程图。

图7是实施方式1所涉及的初始过滤部21的处理的流程图。

图8是实施方式1所涉及的未知解析部22的处理的流程图。

图9是实施方式1所涉及的已知解析部23的处理的流程图。

图10是实施方式1所涉及的简档生成部233的处理的流程图。

图11是实施方式1所涉及的一致判定部234的处理的流程图。

图12是实施方式1所涉及的一贯性解析部24的处理的流程图。

图13是实施方式1所涉及的意图确定部241的处理的流程图。

图14是实施方式1所涉及的规则应用部242和邮件判定部243的处理的流程图。

图15是表示在实施方式1所涉及的一贯性判定规则244中登记的规则的图。

图16是表示实施方式1所涉及的对每个功能词和邮件种类应用的规则的图。

图17是变形例1所涉及的不正当邮件判定装置10的结构图。

图18是实施方式2所涉及的一贯性解析部24的结构图。

图19是实施方式2所涉及的意图学习部245的处理的流程图。

图20是实施方式2所涉及的意图估计部246的处理的流程图。

(附图标记说明)

10:不正当邮件判定装置;11:处理器;12:存储器;13:存储设备;14:通信接口;15:电子电路;21:初始过滤部;211:发送源提取部;212:黑名单判定部;213:内容判定部;214:差异判定部;215:已知判定部;216:黑名单;22:未知解析部;221:收件人姓名判定部;222:身份判定部;223:名片判定部;224:公开信息判定部;225:人名词典数据;226:固定格式文数据;227:接收者简档;23:已知解析部;231:本人个性(personal identification)判定部;232:主题判定部;233:简档生成部;234:一致判定部;235:发件人简档;24:一贯性解析部;241:意图确定部;242:规则应用部;243:邮件判定部;244:一贯性判定规则;245:意图学习部;246:意图估计部;247:学习用邮件;30:名片管理系统。

具体实施方式

实施方式1.

***结构的说明***

参照图1来说明实施方式1所涉及的不正当邮件判定装置10的结构。

不正当邮件判定装置10是计算机。

不正当邮件判定装置10具备处理器11、存储器(memory)12、存储设备(storage)13以及通信接口14这样的硬件。处理器11经由信号线来与其它硬件连接,控制这些其它硬件。

处理器11是进行处理的IC(Integrated Circuit:集成电路)。作为具体例,处理器11是CPU(Central Processing Unit:中央处理单元)、DSP(Digital Signal Processor:数字信号处理器)、GPU(Graphics Processing Unit:图形处理单元)。

存储器12是暂时性地存储数据的存储装置。作为具体例,存储器12是SRAM(StaticRandom Access Memory:静态随机存取存储器)、DRAM(Dynamic Random Access Memory:动态随机存取存储器)。

存储设备13是保管数据的存储装置。作为具体例,存储设备13是HDD(Hard DiskDrive:硬盘驱动器)。另外,存储设备13也可以是SD(注册商标,Secure Digital(安全数字))存储卡、CF(Compact Flash(紧凑式闪存),注册商标)、NAND闪存、软盘、光盘、高密度磁盘、蓝光(注册商标)盘、DVD(Digital Versatile Disk:数字多功能盘)之类的便携式记录介质。

通信接口14是用于与外部的装置进行通信的接口。作为具体例,通信接口14是Ethernet(注册商标,以太网)、USB(Universal Serial Bus:通用串行总线)、HDMI(注册商标,High-Definition Multimedia Interface(高清晰度多媒体接口))的端口。

不正当邮件判定装置10具备初始过滤部21、未知解析部22、已知解析部23以及一贯性解析部24来作为功能结构要素。不正当邮件判定装置10的各功能结构要素的功能是通过软件来实现的。

在存储设备13中保存有实现不正当邮件判定装置10的各功能结构要素的功能的程序。由处理器11将该程序读入存储器12并由处理器11执行。由此,实现不正当邮件判定装置10的各功能结构要素的功能。

参照图2来说明实施方式1所涉及的初始过滤部21的结构。

初始过滤部21具备发送源提取部211、黑名单判定部212、内容判定部213以及差异判定部214来作为功能结构要素。初始过滤部21使用存储设备13中存储的黑名单216。

参照图3来说明实施方式1所涉及的未知解析部22的结构。

未知解析部22具备收件人姓名判定部221、身份判定部222、名片判定部223以及公开信息判定部224来作为功能结构要素。未知解析部22使用存储设备13中存储的人名词典数据225、固定格式文数据226以及接收者简档227。另外,未知解析部22使用经由通信接口14连接的名片管理系统30。

参照图4来说明实施方式1所涉及的已知解析部23的结构。

已知解析部23具备本人个性判定部231和主题判定部232来作为功能结构要素。主题判定部232具备简档生成部233和一致判定部234。已知解析部23使用存储设备13中存储的发件人简档235。

参照图5来说明实施方式1所涉及的一贯性解析部24的结构。

一贯性解析部24具备意图确定部241、规则应用部242以及邮件判定部243来作为功能结构要素。一贯性解析部24使用存储设备13中存储的一贯性判定规则244。

在图1中,将处理器11仅示出了1个。但是,处理器11也可以是多个,也可以由多个处理器11协作来执行实现各功能的程序。

***动作的说明***

参照图6至图16来说明实施方式1所涉及的不正当邮件判定装置10的动作。

实施方式1所涉及的不正当邮件判定装置10的动作相当于实施方式1所涉及的不正当邮件判定方法。另外,实施方式1所涉及的不正当邮件判定装置10的动作相当于实施方式1所涉及的不正当邮件判定程序的处理。

参照图1和图6来说明实施方式1所涉及的不正当邮件判定装置10的整体的处理。

(步骤S1:初始过滤处理)

初始过滤部21将新接收到的接收邮件作为分析对象的对象邮件,确认在对象邮件中是否包含明显不正当的特征。在具有明显不正当的特征的情况下,初始过滤部21将对象邮件作为不正当邮件而从步骤S2以后的处理排除。

(步骤S2:已知判定处理)

初始过滤部21判定对象邮件的发件人是过去没有往来的未知发件人、还是过去有过往来的已知发件人。

在对象邮件的发件人是未知发件人的情况下,初始过滤部21使处理进入步骤S3。另一方面,在对象邮件的发件人是已知发件人的情况下,初始过滤部21使处理进入步骤S4。

(步骤S3:未知解析处理)

未知解析部22判定对象邮件是否为作为来自初次进行邮件的往来的对方的邮件来说具有不适当的特征的邮件。在是具有不适当的特征的邮件的情况下,未知解析部22将对象邮件作为不正当邮件而从步骤S5的处理排除。

(步骤S4:已知解析处理)

已知解析部23判定对象邮件的主题是否为过去与对象邮件的发件人有过往来的主题。

(步骤S5:一贯性解析处理)

一贯性解析部24根据对象邮件与来自对象邮件的发件人的过去的接收邮件的关系,对往来的一贯性进行解析。在往来上存在矛盾的情况下,一贯性解析部24将对象邮件判定为不正当邮件。

参照图2和图7来说明实施方式1所涉及的初始过滤部21的处理。

初始过滤部21的处理对应于图6的步骤S1和步骤S2的处理。具体地说,步骤S11至步骤S14的处理对应于图6的步骤S1的处理。另外,步骤S15的处理对应于图6的步骤S2的处理。

(步骤S11:发送源提取处理)

发送源提取部211提取对象邮件的发件人的信息。具体地说,发送源提取部211从对象邮件的头信息提取From字段的信息和Received字段的信息来作为发件人的信息和经由的服务器的信息。

(步骤S12:黑名单判定处理)

黑名单判定部212判定在步骤S11中提取出的发件人和经由的服务器中的至少任一个是否包含在黑名单216中。黑名单216是事先制作的。黑名单216也可以在每次发现发送不正当邮件的发件人时进行追加。

在发件人和经由的服务器中的至少任一个包含在黑名单216中的情况下,黑名单判定部212将对象邮件判定为不正当邮件,结束处理。另一方面,在发件人和经由的服务器不包含在黑名单216中的情况下,黑名单判定部212使处理进入步骤S13。

(步骤S13:内容判定处理)

内容判定部213判定在对象邮件中是否包含有附件和URL中的至少任一个。

在将附件和URL均不包含的情况下,内容判定部213将对象邮件判定为不是不正当邮件,结束处理。另一方面,在包含有附件和URL中的至少任一方的情况下,内容判定部213使处理进入步骤S14。

(步骤S14:差异判定处理)

差异判定部214将附件和URL中的在步骤S13中判定为包含的一者作为对象,判定对象的内容是否与正文的内容一致。具体地说,差异判定部214在将附件作为对象的情况下,判定附件的内容是否与正文的内容一致。另一方面,差异判定部214在将URL作为对象的情况下,判定URL所表示的Web站点的内容是否与正文的内容一致。此外,在判定内容是否与正文的内容一致时,例如能够利用在文献(西川弘毅、山本匠、河内清人、メールとそのコンテキスト情報を基にした不審メール検知手法の提案、コンピュータセキュリティシンポジウム2017、1B3-3)中记载的技术。

在不一致的情况下,差异判定部214将对象邮件判定为不正当邮件,结束处理。另一方面,在一致的情况下,差异判定部214使处理进入步骤S15。

(步骤S15:已知判定处理)

已知判定部215通过判定对象邮件的发件人是否包含在过去的接收邮件的发件人中,来判定对象邮件的发件人是未知发件人、还是已知发件人。

具体地说,已知判定部215从存储在存储设备13中的过去的全部的接收邮件的From字段的发件人邮件地址或发件人名中搜索对象邮件的发件人。过去的接收邮件既可以被存储在存储设备13中,也可以被存储在经由通信接口14连接的外部的存储装置中。在搜索不到的情况下,已知判定部215将对象邮件的发件人判定为未知发件人,使处理进入图6的步骤S3。另一方面,在搜索到的情况下,已知判定部215将对象邮件的发件人判定为已知发件人,使处理进入图6的步骤S4。

参照图3和图8来说明实施方式1所涉及的未知解析部22的处理。

未知解析部22的处理对应于图6的步骤S3的处理。

(步骤S21:收件人姓名判定处理)

收件人姓名判定部221判定作为对象邮件的正文的收件人姓名是否存在对象邮件的接收者的姓名。具体地说,在英文邮件的情况下,收件人姓名判定部221判定在正文的开头的“Dear Mr.Suzuki”之类的收件人姓名的记载中是否包含接收者的姓名。收件人姓名判定部221参照收件人姓名等表示固定格式的记载形式的固定格式文数据226来确定收件人姓名的记载。另外,设接收者的姓名事先被存储在存储器12等中。

在不包含接收者的姓名的情况下,收件人姓名判定部221将对象邮件判定为不正当邮件,结束处理。另一方面,在包含接收者的姓名的情况下,收件人姓名判定部221使处理进入步骤S22。此外,还存在发给发件列表等存在多个收件地址的事例,因此还登记有“dearall”、“dear folks”、“dear person who may concern”等固定格式文,在这样的情况下,即使不包含接收者的姓名也不判断为不正当邮件。

(步骤S22:身份判定处理)

身份判定部222判定对象邮件的发件人是否在正文中报了姓名。具体地说,身份判定部222从正文中搜索接收者以外的人名。此时,身份判定部222参照人名词典数据225,从正文中搜索接收者以外的人名。另外,身份判定部222也可以参照固定格式文数据226,从正文中搜索“My name is XX”、“I’m XX”以及署名(Signature)之类的报发件人的姓名时的固定格式的记载形式,搜索在人名词典数据225中不存在的人名。

在发件人在正文中没有报姓名的情况下,身份判定部222将对象邮件判定为不正当邮件,结束处理。另一方面,在发件人在正文中报了姓名的情况下,身份判定部222使处理进入步骤S23。

(步骤S23:名片判定处理)

名片判定部223判定接收者是否与对象邮件的发件人进行了名片交换。具体地说,如果在经由通信接口14连接的名片管理系统30中登记有对象邮件的发件人的姓名,则名片判定部223判定为接收者与发件人进行了名片交换。名片管理系统30是管理名片的外部系统。此外,也可以判定是否由接收者所属的组织的某人而不是接收者与发件人进行了名片交换。

在进行了名片交换的情况下,名片判定部223将对象邮件判定为名片存在邮件,使处理进入图6的步骤S5。另一方面,在未进行名片交换的情况下,名片判定部223使处理进入步骤S24。

(步骤S24:公开信息判定处理)

公开信息判定部224判定与对象邮件的发件人有关的公开信息是否为与接收者关联的内容。

具体地说,公开信息判定部224利用OSINT(Open Source Intelligence:公开源情报)工具收集与对象邮件的发件人有关的公开信息。公开信息判定部224根据在收集到的公开信息中是否包含被登记在接收者简档227中的信息,来判定公开信息是否为与接收者关联的内容。在接收者简档227中,接收者的业务、项目以及兴趣之类的与事情有关的单词作为列表被事先登记。

作为具体例,公开信息判定部224关于用OSINT收集到的Web页,使用TF-IDF(TermFrequency-Inverse Document Frequency)之类的关键字提取技术提取页的关键字。然后,公开信息判定部224使用Word2Vec等计算单词的相似度的技术,计算简档的单词与关键字的相似度。在将计算出的相似度为第一阈值以上的对(pair)包含第一基准数以上的情况下,公开信息判定部224判定为在收集到的公开信息中包含被登记在接收者简档227中的信息,判定为公开信息是与接收者关联的内容。另一方面,在没有将计算出的相似度为第一阈值以上的对包含第一基准数以上的情况下,公开信息判定部224判定为在收集到的公开信息中不包含被登记在接收者简档227中的信息,判定为公开信息是不与接收者关联的内容。

在公开信息是与接收者关联的内容的情况下,公开信息判定部224将对象邮件判定为关联领域邮件,使处理进入图6的步骤S5。另一方面,在公开信息不是与接收者关联的内容的情况下,公开信息判定部224将对象邮件判定为不正当邮件,结束处理。

参照图4和图9来说明实施方式1所涉及的已知解析部23的处理。

已知解析部23的处理对应于图6的步骤S4的处理。

(步骤S31:本人个性判定处理)

本人个性判定部231根据对象邮件的正文的文体判定正文是否为发件人本人的语句。具体地说,本人个性判定部231使用非专利文献1中记载的技术等判定正文是否为发件人本人的语句。

在正文不是发件人本人的语句的情况下,本人个性判定部231将对象邮件判定为不正当邮件,结束处理。另一方面,在正文是发件人本人的语句的情况下,本人个性判定部231使处理进入步骤S32。

(步骤S32:主题判定处理)

主题判定部232判定对象邮件的主题是否包含于从与对象邮件相同的发件人接收到的其它接收邮件中。也就是说,主题判定部232判定对象邮件的主题是否为过去在接收者与发件人之间有过往来的主题。

在对象邮件的主题包含在其它接收邮件中的情况下,主题判定部232将对象邮件判定为主题一致邮件,使处理进入图6的步骤S5。另一方面,在对象邮件的主题不包含在其它接收邮件中的情况下,主题判定部232将对象邮件判定为主题不一致邮件,使处理进入图6的步骤S5。

参照图4、图10以及图11来详细地说明实施方式1所涉及的主题判定处理(图9的步骤S32)。主题判定处理包括简档生成部233的处理和一致判定部234的处理。

首先,参照图4和图10来说明实施方式1所涉及的简档生成部233的处理。

(步骤S41:第一正文提取处理)

简档生成部233从过去的全部的接收邮件中提取正文。

(步骤S42:第一特征提取处理)

简档生成部233从在步骤S41中提取出的各接收邮件的正文中提取特征。作为特征,可考虑使用LDA(Latent Dirichlet Allocation:隐狄利克雷分布)的主题的选择概率和利用TF-IDF的关键字等。

(步骤S43:聚类处理)

简档生成部233基于在步骤S42中提取出的特征将过去的接收邮件聚类为多个簇。作为聚类的算法,简档生成部233可以使用DBSCAN(Density-based spatial clusteringof applications with noise)和KMEANS之类的现有技术。

(步骤S44:加标签处理)

简档生成部233将在步骤S43中聚类为多个簇的接收邮件作为学习用数据,将接收邮件所属的簇的标识符作为该接收邮件的标签进行分配。

(步骤S45:学习处理)

简档生成部233基于在步骤S44中加标签的学习用数据进行监督式学习。作为监督式学习的算法,可以使用SVM和随机森林之类的现有的方法。由此,生成用于识别接收邮件被分类为哪个簇的识别器。

步骤S46至步骤S49的处理是以接收邮件的各发件人为对象来执行的。

(步骤S46:第二正文提取处理)

简档生成部233从过去的全部的接收邮件中的由对象的发件人发送的接收邮件中提取正文。

(步骤S47:第二特征提取处理)

简档生成部233通过与步骤S42相同的方法从在步骤S46中提取出的各接收邮件的正文中提取特征。

(步骤S48:第一识别处理)

简档生成部233将在步骤S46中提取出的各接收邮件作为对象,基于在步骤S45中生成的识别器和在步骤S47中从对象的接收邮件中提取出的特征,将对象的接收邮件进行分类。然后,简档生成部233将分类出的簇的标识符作为标签分配给对象的接收邮件。

(步骤S49:简档生成处理)

简档生成部233将对在步骤S46中提取出的各接收邮件分配的标签的列表作为关于对象的发件人的简档写入发件人简档235中。

接着,参照图4和图11来说明实施方式1所涉及的一致判定部234的处理。

(步骤S51:发送源提取处理)

一致判定部234提取对象邮件的发件人的信息。发件人的信息的提取方法与图7的步骤S11相同。在此,将对象邮件设为M0。另外,将提取出的发件人的信息所表示的发件人设为P。也就是说,将对象邮件M0的发件人设为P。

(步骤S52:发送源确定处理)

一致判定部234从发件人简档235读出关于发件人P的简档。

(步骤S53:第三正文提取处理)

一致判定部234确定过去的全部的接收邮件中的关于发件人P的接收邮件。一致判定部234从确定出的关于发件人P的接收邮件中,按接收日期时间从新到旧的顺序提取X封接收邮件。X是1以上的整数。在此,将提取出的X封的接收邮件按接收日期时间从新到旧的顺序设为M1、...、MX。

一致判定部234从对象邮件M0和提取出的X封接收邮件M1、...、MX中提取正文。

(步骤S54:第三特征提取处理)

一致判定部234通过与图10的步骤S42相同的方法从接收邮件M0、...、MX的正文中提取特征。

(步骤S55:第二识别处理)

一致判定部234与图10的步骤S48同样地,将对象邮件M0和接收邮件M1、...、MX进行分类,将标识符作为标签进行分配。在此,将分配给对象邮件M0的标签设为C0,将分配给接收邮件M1、...、MX的标签设为C1、...、CX。

(步骤S56:第一主题判定处理)

一致判定部234判定在步骤S55中分配给对象邮件M0的标签C0是否包含于在步骤S52中读出的关于发件人P的简档中。

在标签C0不包含在简档中的情况下,一致判定部234将对象邮件判定为主题不一致邮件,使处理进入图6的步骤S5。另一方面,在标签C0包含在简档中的情况下,一致判定部234使处理进入步骤S57。

(步骤S57:第二主题判定处理)

一致判定部234判定在步骤S55中分配给对象邮件M0的标签C0是否包含于在步骤S55中分配给接收邮件M1、...、MX的标签C1、...、CX中。

在标签C0不包含在标签C1、...、CX中的情况下,一致判定部234将对象邮件判定为主题不一致邮件,使处理进入图6的步骤S5。另一方面,在标签C0包含在标签C1、...、CX中的情况下,一致判定部234将对象邮件判定为主题一致邮件,使处理进入图6的步骤S5。

参照图5和图12来说明实施方式1所涉及的一贯性解析部24的处理。

在此,执行初始过滤部21、未知解析部22以及已知解析部23的处理的结果是对象邮件被分类为不正当邮件、非不正当邮件、名片存在邮件、关联领域邮件、主题一致邮件以及主题不一致邮件。在对象邮件被分类为名片存在邮件、关联领域邮件、主题一致邮件以及主题不一致邮件这样的邮件种类的情况下,一贯性解析部24判定对象邮件是否为不正当的。

(步骤S61:意图确定处理)

意图确定部241根据对象邮件的正文确定对象邮件的意图。在此,对象邮件的意图是指,转发、重发、忘记附加、更新以及委托应对之类的发送了对象邮件的理由。在实施方式1中,意图确定部241从对象邮件的正文中提取与事先登记的功能词相似的单词,将与提取出的单词相似的功能词所表示的意图确定为对象邮件的意图。

(步骤S62:规则应用处理)

规则应用部242从一贯性判定规则244读出与在步骤S61中确定出的意图及对象邮件的邮件种类对应的规则。在一贯性判定规则244中事先登记有规则。在一贯性判定规则244中,能够将规则作为插件等适当追加。规则表示用于判定为不正当邮件的条件。如上所述,邮件种类是名片存在邮件、关联领域邮件、主题一致邮件以及主题不一致邮件中的任意种类。

(步骤S63:邮件判定处理)

邮件判定部243根据从与对象邮件相同的发件人接收到的其它接收邮件与在步骤S61中确定出的对象邮件的意图的关系来判定对象邮件是否为不正当邮件。

具体地说,邮件判定部243根据在步骤S62中读出的规则所表示的条件和从与对象邮件相同的发件人接收到的其它接收邮件,判定对象邮件是否为不正当邮件。

参照图5和图13来详细地说明实施方式1所涉及的意图确定部241的处理。

意图确定部241的处理对应于图12的步骤S61。

(步骤S71:第四正文提取处理)

意图确定部241从对象邮件中提取正文。

(步骤S72:单词提取处理)

意图确定部241从在步骤S71中提取出的正文中提取单词。例如,意图确定部241对正文进行词素解析,提取名词和动词之类的一部分词类来作为单词。

(步骤S73:相似度计算处理)

意图确定部241将在步骤S72中提取出的各单词作为对象,关于对象的单词计算与各功能词的相似度。在相似度的计算中使用Word2Vec等计算单词的相似度的技术。功能词是转发、重发、忘记附加、错误、更新以及回复之类的表示发送了对象邮件的理由的单词,事先被登记。能够将功能词和规则功能词作为插件等适当追加。

(步骤S74:相似度判定处理)

意图确定部241判定是否将在步骤S73中计算出的相似度为第二阈值以上的单词包含第二基准数以上。

在没有将第二阈值以上的单词包含第二基准数以上的情况下,意图确定部241将对象邮件判定为不是不正当邮件,结束处理。另一方面,在将第二阈值以上的单词包含第二基准数以上的情况下,意图确定部241将判定为与单词的相似度为第二阈值以上的功能词进行列表化,使处理进入图12的步骤S62。

参照图5和图14来详细地说明实施方式1所涉及的规则应用部242和邮件判定部243的处理。

规则应用部242和邮件判定部243的处理对应于图12的步骤S62和步骤S63的处理。

(步骤S81:列表判定处理)

规则应用部242判定是否选择了在步骤S74中生成的列表的全部功能词。

在选择了全部功能词的情况下,规则应用部242将对象邮件判定为不是不正当邮件,结束处理。另一方面,在存在未被选择的功能词的情况下,规则应用部242使处理进入步骤S82。

(步骤S82:功能词选择处理)

规则应用部242从列表中选择一个尚未被选择的功能词。

(步骤S83:规则读出处理)

规则应用部242从一贯性判定规则244读出与在步骤S82中选择出的功能词及对象邮件的邮件种类相应的规则。

(步骤S84:规则判定处理)

邮件判定部243根据在步骤S83中读出的规则所表示的条件和从与对象邮件相同的发件人接收到的其它接收邮件,判定对象邮件是否为不正当邮件。在此,在对象邮件或其它接收邮件满足规则所表示的条件的情况下,邮件判定部243将对象邮件判定为不正当邮件。另一方面,在对象邮件或其它接收邮件不满足规则所表示的条件的情况下,邮件判定部243将对象邮件判定为不是不正当邮件。

参照图15和图16来说明被登记在一贯性判定规则244中的规则的例子。

在图15中示出了规则1至规则7这7个规则。在图16中示出了对每个功能词和邮件种类应用的规则。在图16中关于邮件种类为名片存在邮件和关联领域邮件示出了规则,但是关于邮件种类为主题一致邮件和主题不一致邮件,也同样地设定规则。

例如,在名片存在邮件中包含有与“重发”的功能词有关系的单词的情况下,应用规则1。

规则1是在对象邮件的正文中包含有功能词的情况下判定为不正当邮件的规则。仅在对象邮件的正文中包含功能词的情况下执行图14的步骤S84的处理。因此,当应用规则1时,必定判定为不正当邮件。这是因为,从平时没有往来的人突然“重发”邮件是不自然的。

例如,在名片存在邮件中包含与“转发”的功能词有关系的单词的情况下,应用规则2。

在规则2中,邮件判定部243从对象邮件的正文、附件的内容以及URL的内容中提取主题和关键字,判定是否与过去与发件人有过往来的邮件的主题一致。判定主题是否一致的方法与一致判定部234的处理相同。如果主题不一致,则判定为不正当邮件。这是因为,从平时没有往来的人发送没有关系的主题的信息是不自然的。

例如,在关联领域邮件中包含有与“重发”的功能词有关系的单词的情况下,应用规则3或规则4。

在规则3中,邮件判定部243判定是否紧接之前从相同的发件人发送了相同的内容的邮件。如果没有发送,则判定为不正当邮件。这是因为,在通知进行了重发的邮件之前,过去并没有发送相同的内容的邮件是不自然的。关于是否为相同的内容的邮件,能够利用Doc2Vec之类的现有技术,如果是阈值以上的相似度则判定为相同的内容的语句,由此进行判定。

在规则4中,邮件判定部243判定紧接之前从相同的发件人发送的相同的邮件中是否附加有相同的附件。如果附加有不同的附件则判定为不正当邮件。这是因为,虽然是重发但却发送了不同的附件是不自然的。

例如,在关联领域邮件中包含有与“忘记附加”的功能词有关系的单词的情况下,应用规则3或规则5。

在规则5中,邮件判定部243判定紧接之前从相同的发件人发送的邮件中是否附加有附件。如果附加有附件则判定为不正当邮件。这是因为,应是忘记附加而有附加是不自然的。

***实施方式1的效果***

如以上所述,实施方式1所涉及的不正当邮件判定装置10根据从与对象邮件相同的发件人接收到的其它接收邮件与对象邮件的意图的关系来判定对象邮件是否为不正当邮件。由此,能够适当地探测针对性攻击邮件。

特别是,即使在准确地模仿了冒充对象的人的语句的习惯的情况以及过去的邮件被原样挪用的情况下,也能够根据接收邮件的主题的不一致和往来上的矛盾之类的条件探测不正当邮件。因此,能够防止由巧妙的攻击者经由邮件进行的恶意软件感染。

特别是,实施方式1所涉及的不正当邮件判定装置10基于与表示对象邮件的意图的功能词及邮件种类相应的条件判定对象邮件是否为不正当邮件。由此,能够更适当地探测针对性攻击邮件。

***其它结构***

<变形例1>

在实施方式1中,各功能结构要素是通过软件来实现的。但是,作为变形例1,各功能结构要素也可以通过硬件来实现。关于该变形例1,说明与实施方式1的不同点。

参照图17来说明变形例1所涉及的不正当邮件判定装置10的结构。

在通过硬件来实现各功能结构要素的情况下,不正当邮件判定装置10具备电子电路15来代替处理器11、存储器12以及存储设备13。电子电路15是实现各功能结构要素、存储器12以及存储设备13的功能的专用电路。

作为电子电路15,可设想单一电路、复合电路、被编程的处理器、被并行编程的处理器、逻辑IC、GA(Gate Array:门阵列)、ASIC(Application Specific IntegratedCircuit:专用集成电路)、FPGA(Field-Programmable Gate Array:现场可编程门阵列)。

既可以通过一个电子电路15来实现各功能结构要素,也可以使各功能结构要素分散于多个电子电路15来实现。

<变形例2>

作为变形例2,也可以是:一部分各功能结构要素是通过硬件来实现,其它各功能结构要素是通过软件来实现。

将处理器11、存储器12、存储设备13以及电子电路15称为处理电路。也就是说,各功能结构要素的功能是通过处理电路来实现的。

实施方式2.

实施方式2根据对象邮件的正文整体来确定意图,这一点不同于实施方式1。在实施方式2中,说明该不同点,关于相同点省略说明。

***结构的说明***

参照图18来说明实施方式2所涉及的一贯性解析部24的结构。

在一贯性解析部24中,意图确定部241具备意图学习部245、意图估计部246以及学习用邮件247,这一点不同于图5所示的结构。

***动作的说明***

参照图19和图20来说明实施方式2所涉及的不正当邮件判定装置10的动作。

实施方式2所涉及的不正当邮件判定装置10的动作相当于实施方式2所涉及的不正当邮件判定方法。另外,实施方式2所涉及的不正当邮件判定装置10的动作相当于实施方式2所涉及的不正当邮件判定程序的处理。

参照图19来说明实施方式2所涉及的意图学习部245的处理。

(步骤S91:第一段落提取处理)

意图学习部245从包含在学习用邮件247中的邮件数据中提取全部的段落。在学习用邮件247中登记有对各段落附加了表示功能词的标签的多个邮件的正文的数据。

(步骤S92:第四特征提取处理)

意图学习部245通过与图10的步骤S42相同的方法从在步骤S91中提取出的各段落中提取特征。

(步骤S93:学习处理)

意图学习部245与图10的步骤S45同样地,基于在步骤S92中从各段落中提取出的特征和附加在各段落的标签进行监督式学习。由此,生成用于识别特征与哪个标签对应的识别器。也就是说,生成用于识别特征与哪个功能词对应的识别器。

参照图20来说明实施方式2所涉及的意图估计部246的处理。

(步骤S101:第五正文提取处理)

意图估计部246从对象邮件中提取正文。

(步骤S102:第二段落提取处理)

意图估计部246从在步骤S101中提取出的正文中提取段落。

(步骤S103:第五特征提取处理)

意图估计部246通过与图10的步骤S42相同的方法从在步骤S102中提取出的各段落中提取特征。

(步骤S104:第三识别处理)

意图估计部246将各段落作为对象,基于在步骤S93中生成的识别器和在步骤S103中从对象的段落中提取出的特征计算对象的段落与各功能词对应的识别分数。

(步骤S105:识别分数判定处理)

意图估计部246判定是否包含有在步骤S104中计算出的识别分数为第三阈值以上的功能词。

在包含有识别分数为第三阈值以上的功能词的情况下,将识别分数为第三阈值以上的功能词作为列表来生成。另一方面,在不包含识别分数为第三阈值以上的功能词的情况下,将对象邮件判定为不是不正当邮件,结束处理。

在此,不是简单地将识别为与各段落对应的功能词进行列表化,而是将识别分数为第三阈值以上的功能词进行列表化。由此,只有与段落对应的可能性为一定级别以上的功能词被列表化。

***实施方式2的效果***

在实施方式1中,意图确定部241通过提取与事先登记的功能词相似的单词来确定了对象邮件的意图。在该情况下,如果与功能词相似的单词在正文中无意图地被使用,则导致对意图进行误检测。

与此相对,实施方式2所涉及的不正当邮件判定装置10根据邮件的正文整体来确定意图。因此,即使与功能词相似的单词在正文中无意图地被使用,也能够适当地确定意图。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号