首页> 中国专利> 一种基于图形理论的自然语言处理技术的研发方法

一种基于图形理论的自然语言处理技术的研发方法

摘要

本发明公开了一种基于图形理论的自然语言处理技术的研发方法,所述研究方法如下:1通过图数据库对自然对话,按照汉字顺序进行存储,并即时形成N‑Gram模型的字关联统计;2将对话的句子,按照断句规则进行处理,形成字的连接链,在这类数据达到一定量级,统计出同一个链上相邻汉字的出现频次,形成N‑Gram的数据;3基于上述规则由汉字到词到短语到句子形成金字塔结构,规则和汉字数据紧密绑定,通过图论方法,形成数据即处理单元的处理方法,并通过半监督学习的方法,对形成的规则进行干预校准。通过上述方式,本发明能够使自然语言各个要素之间的关系抽取更加快捷,更加直观,他将使抽取的自然语言规则,更加准确、简洁、易维护。

著录项

  • 公开/公告号CN112906379A

    专利类型发明专利

  • 公开/公告日2021-06-04

    原文格式PDF

  • 申请/专利权人 苏州英特雷真智能科技有限公司;

    申请/专利号CN202011435391.1

  • 发明设计人 杜爽;

    申请日2020-12-10

  • 分类号G06F40/284(20200101);G06F40/35(20200101);G06F40/44(20200101);G06F40/211(20200101);G06F16/901(20190101);

  • 代理机构32364 苏州吴韵知识产权代理事务所(普通合伙);

  • 代理人朱亮

  • 地址 215000 江苏省苏州市元和街道嘉元路959号元和大厦4楼416室

  • 入库时间 2023-06-19 11:14:36

说明书

技术领域

本发明涉及人工智能技术领域,图形理论及自然语言处理技术,特别是涉及一种基于图形理论的自然语言处理技术的研发方法。

背景技术

自然语言处理(NLP,Natural Language Processing)是研究人与计算机交互的语言问题的一门学科,旨在让计算机理解语言,实现人与计算机之间用自然语言进行通信。

一般地,自然语言处理技术的研发都是基于深度学习、或统计分析的分类器方向发展的,按照技术实现难度的不同,这类系统可以分成简单匹配式、模糊匹配式和段落理解式三种类型。无论是哪种类型,都是关键词的匹配过程的体现。汉语的词汇是由汉字组合而成,结构松散,真正的语义意图往往与上下文关联性强,单纯的关键词匹配,不足以提高意图识别的准确率.

目前自然语言处理方式的研发都是基于深度学习的分类器方向进行的,将图形理论与自然语言处理相结合,来解决自然语言处理中的部分问题,尚没有资料表明有机构或个人进行研发。知识图谱的发展使得图形理论的应用及图数据库应用逐渐成熟,将图形理论结合到自然语言处理中来,是创新。

发明内容

本发明的目的在于提供一种基于图形理论的自然语言处理技术的研发方法,能够使自然语言各个要素之间的关系抽取更加快捷,更加直观,他将使抽取的自然语言规则,更加准确、简洁、易维护。

为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于图形理论的自然语言处理技术的研发方法,所述研究方法如下:

1)通过图数据库对自然对话,按照汉字顺序进行存储,并即时形成N-Gram 模型的字关联统计;

2)将对话的句子,按照断句规则进行处理,形成字的连接链,在这类数据达到一定量级,统计出同一个链上相邻汉字的出现频次,形成N-Gram的数据;基于N-Gram的数据,抽取词语之间的关联频度数据,对汉语词汇的词性进行标注,从而形成对话规则;

3)基于上述规则由汉字到词到短语到句子形成金字塔结构,规则和汉字数据紧密绑定,通过图论方法,形成数据即处理单元的处理方法,并通过半监督学习的方法,对形成的规则进行干预校准。

进一步的是,所述步骤2)的具体研究过程如下:

21)生成会话编码,将会话进行句子拆分,标点符号归集到前一句子;

22)将日常对话进行汉字拆分,按照汉字的顺序记录到图数据库中,以句为单元对顺序关系进行标注;

23)对汉字进行统计,临近汉字进行词汇提取,词性标注,三级词频统计;

24)词汇顺序关系进行统计;

25)面向全体数据,抽取名词性关键词;

26)通过监督教育不断修改句型标注方法及数据,最终形成词法器,新数据通过语法器进行主题提取。

进一步的是,所述步骤24)具体为词汇顺序关系进行统计并抽象为句型标注,并对会话范围内,上下文进行关联关系标注。

进一步的是,所述步骤25)具体为面向全体数据,抽取名词性关键词,将名词为主语的句子进行分类标注,分析句子间的词汇编码相似度。

进一步的是,所述步骤2)断句规则具体流程如下:

①将自然对话定义为场景进行编码;

②判断是否有下一句,按照句子进行汉字拆分;

③判断汉字是否存在,汉字不存在时,建立汉字节点,频次设置为1;汉字存在时,汉字频次+1;

④判断是否为该句第一汉字,不是该句第一汉字时,与前一汉字建立顺序关系;是该句第一汉字时,标记为本句起绐汉字;

⑤判断是否为该句最尾汉字,不是该最尾汉字时,进行下一个汉字的处理;是该最尾汉字时,标记为本句结束汉字。

本发明的有益效果是:本发明的一种基于图形理论的自然语言处理技术的研发方法,能够提取自然对话中的语义意图,让分词、句法分析等自然语言处理具象化,提高对自然语言处理方式的研发能力,在同等语料数据量的基础上准确率提升突破阈值,提高意图分析准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一种基于图形理论的自然语言处理技术的研发方法的流程图;

图2是本发明一种基于图形理论的自然语言处理技术的研发方法的示例图。

图3是本发明一种基于图形理论的自然语言处理技术的研发方法的实施示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明的具体实施方式进行详细说明。这些优选实施方式的示例在附图中进行了例示。附图中所示和根据附图描述的本发明的实施方式仅仅是示例性的,并且本发明并不限于这些实施方式。

在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。

以及,在本发明的描述中,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。

请参阅图1至图3,本发明实施例包括:一种基于图形理论的自然语言处理技术的研发方法,所述研究方法如下:

1)通过图数据库对自然对话,按照汉字顺序进行存储,并即时形成N-Gram 模型的字关联统计;

2)将对话的句子,按照断句规则进行处理,形成字的连接链,在这类数据达到一定量级,统计出同一个链上相邻汉字的出现频次,形成N-Gram的数据;基于N-Gram的数据,抽取词语之间的关联频度数据,对汉语词汇的词性进行标注,从而形成对话规则;

3)基于上述规则由汉字到词到短语到句子形成金字塔结构,规则和汉字数据紧密绑定,通过图论方法,形成数据即处理单元的处理方法,并通过半监督学习的方法,对形成的规则进行干预校准。

如图2所示,本发明步骤2)的具体研究过程如下:

21)生成会话编码,将会话进行句子拆分,标点符号归集到前一句子;

22)将日常对话进行汉字拆分,按照汉字的顺序记录到图数据库中,以句为单元对顺序关系进行标注;

23)对汉字进行统计,临近汉字进行词汇提取,词性标注,三级词频统计;

24)词汇顺序关系进行统计;

25)面向全体数据,抽取名词性关键词;

26)通过监督教育不断修改句型标注方法及数据,最终形成词法器,新数据通过语法器进行主题提取。

进一步的是,所述步骤24)具体为词汇顺序关系进行统计并抽象为句型标注,并对会话范围内,上下文进行关联关系标注。

进一步的是,所述步骤25)具体为面向全体数据,抽取名词性关键词,将名词为主语的句子进行分类标注,分析句子间的词汇编码相似度。

如图2所示,本发明步骤2)断句规则具体流程如下:

①将自然对话定义为场景进行编码,有下一句直接进行下步的操作,无下一句流程就直接结束;

②按照句子进行汉字拆分;

③判断汉字是否存在,汉字不存在时,建立汉字节点,频次设置为1;汉字存在时,汉字频次+1;

④判断是否为该句第一汉字,不是该句第一汉字时,与前一汉字建立顺序关系;是该句第一汉字时,标记为本句起绐汉字;

⑤判断是否为该句最尾汉字,不是该最尾汉字时,进行下一个汉字的处理;是该最尾汉字时,标记为本句结束汉字。

⑥重复按照句子进行汉字拆分的过程。

如图3所示,本发明基于上述规则由汉字到词到短语到句子形成金字塔结构,规则和汉字数据紧密绑定,通过图论方法,形成数据即处理单元的处理方法的实施例。

本发明公开一种在自然语言处理过程中,语法规则的抽取及维护方法,其通过自然语言中字的结构特点对字进行标注,并在自然对话中不断进行数据升维,从而抽取出语法规则。这种方法可用来提取自然对话中的语义意图,让分词、句法分析等自然语言处理具象化,提高对自然语言处理方式的研发能力。以往的自然语言处理的句法分析,都是通过字词的组合统计来分类语义意图,反应的是局部样本的统计结果,是基于词命中的概率模型,其准确度与语料数据量的曲线有阈值存在。本发明是基于字词间关系数据的算法模型,可在同等语料数据量的基础上准确率提升突破阈值,提高意图分析准确率。

在此模型的基础上还可以衍生出其他特征数据,如不同的人物的对话特征数据等。

此外,需要说明的是,在本说明书中,“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号