首页> 中国专利> 一种基于在线反绎学习的流式数据分类方法及其实现装置

一种基于在线反绎学习的流式数据分类方法及其实现装置

摘要

本发明公开一种基于在线反绎学习的流式数据分类方法及其实现装置,通过将输入的无标记(或弱监督标记)流式数据放入当前学习器,从而获得对当前流式数据预测的伪标记;对预测得到的伪标记,通过利用知识库(和弱监督标记),执行反绎推理操作得到修改后的伪标记;最后,使用修改后的伪标记对学习器进行更新。上述过程随着流式数据到来不断执行。本发明一方面可以利用一阶逻辑表达的领域知识,使用在线反绎学习方法超越传统在线学习方法的性能;另一方面,可快速处理大量流式数据,能利用无标记或弱标记数据,并且还能处理数据中可能出现的新类别。

著录项

  • 公开/公告号CN113095423A

    专利类型发明专利

  • 公开/公告日2021-07-09

    原文格式PDF

  • 申请/专利权人 南京大学;

    申请/专利号CN202110430304.1

  • 发明设计人 李宇峰;周志华;黄宇轩;

    申请日2021-04-21

  • 分类号G06K9/62(20060101);G06N5/02(20060101);

  • 代理机构32326 南京乐羽知行专利代理事务所(普通合伙);

  • 代理人李玉平

  • 地址 210023 江苏省南京市栖霞区仙林大道163号

  • 入库时间 2023-06-19 11:45:49

说明书

技术领域

本发明涉及一种基于在线反绎学习的流式数据分类方法及其实现装置,属于大规模数据下的人工智能与模式识别任务技术领域。

背景技术

在线学习是一类主流机器学习算法,在流式数据、大规模数据等分类任务中取得了显著效果,其主要应对大量标记数据持续到来,设备存储有限,利用新增训练样本更新当前模型。现有的在线学习技术大都使用数据驱动的机器学习模型实现,具有需要大量标注数据、难以利用弱标注数据,以及难以利用领域知识等不足。

发明内容

发明目的:针对现有技术中存在的问题与不足,本发明提供一种基于在线反绎学习的流式数据分类方法及其实现装置。

技术方案:一种基于在线反绎学习的流式数据分类方法,接收流式数据,通过将输入的流式数据放入当前学习器,从而获得对当前样本预测的伪标记;将预测得到的伪标记转化为伪事实,通过利用知识库和弱标记数据,执行反绎推理操作得到修改后的伪事实;最后,将修改后的伪事实转化为伪标记,对学习器进行更新;上述过程随着流式数据到来不断执行;通过在线反绎学习方法针对流式训练数据与知识库同时存在的情景,对弱标注或无标注数据进行分类。

所述流式数据为无标记或弱监督标记的流式数据。

基于在线反绎学习的流式数据分类方法流程主要包括三个部分,随着数据到来不断执行:

(1)伪标记预测过程:取一个批次的流式数据,将所有输入样本放进学习器,获得对应的样本的伪标记作为输出。

(2)反绎推理标记过程:通过将伪标记转化为伪事实输入知识库,利用逻辑演算验证伪事实与知识库是否一致。如果一致,则不对伪标记进行修改;如果不一致,则尝试根据最小化不一致性的原则对伪事实进行修改,使得修改后的伪事实与知识库一致,并将其转化为伪标记返回给学习器。

(3)更新学习器过程:将反绎推理得到的伪标记当做真实标记,与当前批次的样本一起用于更新学习器。

寻找出错的标记位置。使用最小化不一致性的原则,换言之,通过修改最少数量的伪事实,使得修改后的事实尽可能与知识库一致。当标记数量大于预设数量时,该过程可以采用非梯度优化的方法进行搜索,当标记数量小于预设数量时,可以直接进行穷举搜索。具体而言,方法会首先尝试寻找某一个伪标记对应的事实,并将其标注为可反绎,然后进行反绎推理得到修改后与知识库一致的伪事实;若不存在这样的事实,换言之,任意一个伪事实修改后都无法与知识库一致,则方法会尝试寻找某两个标记对应的伪事实,并将它们标注为可反绎并尝试推理,得到与知识库一致的伪标记。若仍不能与知识库一致,则继续增加可以修改的标记数量,直到找到能修改后与知识库一致的事实。

一种基于在线反绎学习的流式数据分类方法的实现装置,包括:一个处理器,以及与所述一个处理器耦合的存储器;所述存储器存储领域知识库和指令,当所述指令被所述一个处理器执行时,使得所述一个处理器执行上述的在线反绎学习的流式数据分类方法。

附图说明

图1是本发明方法的分类过程的流程图;

图2是本发明方法的伪标记预测流程图;

图3是本发明方法的反绎推理标记过程的流程图;

图4是本发明的装置的框图。

具体实施方式

下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

基于在线反绎学习的流式数据分类方法,基于知识库和要学习的学习器,对输入的流式数据进行在线学习。该方法中的学习器,可以是任意适合对应任务的学习器,比如神经网络、决策树等。学习前的学习器,可以不需要预先训练,亦可进行有监督的预训练。知识库中的内容,可以是用一阶逻辑表示的领域知识规则,也可以是其他形式语言表达、能用于推理和演算的程序。

基于在线反绎学习的流式数据分类方法的实现装置,可以由电子设备执行,例如终端设备或服务端设备。换言之,方法可以由安装在终端设备或服务器设备的软件或硬件来执行。服务器设备包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等终端设备包括但不限于:智能手机、个人电脑、笔记本电脑、平板电脑、电子阅读器、网络电视、可穿戴设备等智能终端设备中的任一种。

如图1所示。对于不断到来的流式数据,首先取一个批次的数据,并更新当前知识库。然后依次进行伪标记预测(流程如图2所示),反绎推理伪标记,更新学习器过程。这三个步骤不断循环,直到判断这个批次中与知识库一致的样本数比例大于r。一个批次的样本学习完毕后,取流式数据中下一个批次的样本,然后重复上述过程。由于对流式数据样本进行在线学习,时间开销小,训练速度快。此外由于仅需要弱标注数据或无标注数据,对于数据标注的要求比传统在线学习方法更低。

在线反绎学习方法的反绎推理标记过程

该在线反绎学习方法的反绎推理标记过程由如下三个子方面构成:

1、知识库判断一致性。首先,针对学习器预测一个样本得到的伪标记y

2、寻找出错的伪事实位置。使用最小化不一致性的原则,换言之,通过修改最少数量的事实,使得修改后的伪事实达到与知识库一致。当n比较大(大于预设值)时,该过程可以采用非梯度优化的方法进行搜索,当n比较小(小于预设值)时,可以直接进行穷举搜索。具体而言,方法会首先尝试寻找某一个伪事实z

3、反绎推理得到修改后的伪标记。在子步骤2中,得到了可反绎的伪事实位置,将这些位置设为可反绎的,然后将这些伪事实(和弱监督标记,若有)给知识库进行反绎推理,使得这些位置的伪事实修改后能与知识库一致,最后将其转化为伪标记。

基于1,2,3点子步骤,在线反绎学习的反绎推理标记过程如图3所示。具体而言,对于输入的样本及其伪标记,首先根据子步骤1,在310和320,根据伪标记转换而成的伪事实及知识库,判断是否一致,若一致则直接在390返回输入的伪标记。其次根据子步骤2,在330、340、350、385计算搜索得到出错的伪事实位置,这个过程会调用子步骤3,即360、370、380进行反绎推理得到修改后的伪事实。最后在390将修改后的伪事实转换回伪标记。由于方法先搜索修改数量最少的标记,因此返回的修改后伪标记一定符合最小化不一致性原则。

图4示出了根据本发明的实施例的实现在线反绎学习装置的示意图。如图4所示,在线反绎学习装置400可以包括至少一个处理器410、内存420、存储器(例如,非易失性存储器)430、和通信接口440,并且至少一个处理器410、内存420、存储器430、和通信接口440经由总线450连接在一起。

总线450提供在线反绎学习装置400的组件之间的通信信道。至少一个处理器410可控制在线反绎学习装置400。至少一个处理器410可执行操作系统、固件等以便驱动在线反绎学习装置400。至少一个处理器410执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。内存420可用作处理器410的工作存储器。内存420可包括易失性存储器(诸如,静态随机存取存储器(SRAM)或动态随机存取存储器(DRAM))或非易失性存储器(诸如,相变RAM(PRAM)、磁性RAM(MRAM)、电阻式RAM(ReRAM)或铁电RAM(FRAM))。存储器430可存储由至少一个处理器410生成的数据。存储器430可存储至少一个处理器410执行的操作系统或固件代码,以及领域知识库。存储器430可包括非易失性存储器(诸如,NAND闪存、PRAM、MRAM、RRAM或FRAM)。通信接口可包括网络通信接口和用户输入接口(诸如,鼠标、键盘、麦克风和摄像头),用于接收流式数据等信息。

在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器410:通过将输入的无标记(或弱标记)流式数据放入当前学习器,从而获得对当前样本预测的伪标记;对预测得到的伪标记,通过利用知识库(和弱标记数据),执行反绎推理操作得到修改后的伪标记;最后,使用修改后的伪标记对在线反绎学习装置中的学习器进行更新。

存储器中存储的计算机可执行指令当执行时使得一个处理器410进行本发明的各个实施例中以上结合图1-3描述的各种操作和功能。

根据一个实施例,提供了一种比如机器可读介质(例如,非暂时性机器可读介质)的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本发明的各个实施例中以上结合图1-3描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本说明书的一部分。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号