首页> 中国专利> 一种汽车标准知识图谱的构建方法

一种汽车标准知识图谱的构建方法

摘要

本发明提出了一种汽车标准知识图谱的构建方法,包括以下步骤:S1,获取汽车标准知识文件;S2,对步骤S1中获取的汽车标准知识文件进行预处理;S3,对步骤S2中预处理后的汽车标准知识文件进行汽车标准知识图谱进行构建。本发明能够在实际现场试验检测过程中,用户不需要同时翻看数本标准进行查阅,极大地降低了标准知识检索的步骤及时间。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-01

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及一种汽车知识图谱技术领域,特别是涉及一种汽车标准知识图谱的构建方法。

背景技术

标准是经济活动和社会发展的技术支撑。而汽车标准是政府制订汽车法规的立法基础,为了保证汽车产品的质量,特别是为了满足有关安全、环境保护和节约能 源等方面的要求,促进汽车生产的系列化、通用化和标准化,我国制订了一系列的 汽车标准,作为汽车厂家、销售商和使用者必须共同遵守的准则。而随着汽车标准 文件的快速公开化,由于国内汽车标准种类繁多,分类复杂,且技术含量高,依赖 于人员阅读,知识获取效率低下。同时汽车标准之间的关系较封闭、僵硬、割裂, 关联性低且知识碎片化。难以跨文档协同或检索关键技术内容,致使用户在检索和 识别相关信息时出现的晦涩难读,相互关联性低成为亟需解决的问题。同时汽车标 准为高密度的知识载体,种类繁多,内容复杂,难以将汽车标准内容集成到信息化 系统中。

近年来,知识图谱作为一种能够提高数据检索质量的知识库,引起各界的广泛 关注和应用。在医疗领域,刘勘等人开展基于医疗知识图谱的并发症辅助诊断研究, 充分融合医疗知识图谱和深度学习技术,对提高并发症的诊断起到积极作用。在政 务领域,洪文兴等人设计了司法案件的案情知识图谱自动构建流程,实现了对数十 万份判决书案情知识图谱的自动构建,为类案精准推送等司法人工智能应用提供语 义支撑。在电力领域,蒲天骄等人针对我国电力物联网的数据特征与发展趋势提出 了一种基于NoDKG(Not OnlyDomain-specific思想的电力领域知识图谱应用框架设 计。在标准研究领域,张鹏飞等人通过对700余份绿色标准文件进行本体构建、数 据抽取、数据融合和数据存储和应用研究。秦丽等人对1142个食品安全标准文本图 谱的构建及关联性进行分析研究。尹亮等人采用IDEF3方法开展装备-标准知识图 谱的过程建模研究。张慧等人通过对标准“前言”和“规范性引用文件”部分的特 征分析,从中提取相应实体及实体间的语义关系,提出了一种基于知识图谱的标准 文献数据分析方法。

然而目前为止,国内针对汽车标准与知识图谱技术结合的研究甚少。绝大多数 的汽车标准有规范性引用文件,在实际现场试验检测过程中,测试工程师需要同时 翻看数本标准进行查阅,极大地增加标准知识检索的步骤及时间。以电动汽车标准 GB/T 20234.1-2015《电动汽车传导充电用连接装置第1部分通用要求》(以下简 称GB/T 20234.1-2015)为例,GB/T 20234.1-2015的规范性引用文件有9篇,其中引 用GB/T 11918.1-2014《工业用插头插座和耦合器第1部分:通用要求》高达38次。 基于此,本文提出了一种面向汽车标准知识图谱的构建方法,运用标准知识图谱技 术,对标准文件进行知识获取、知识表示、知识融合、知识储存的构建过程。将GB/T 20234.1-2015标准文档章节与9篇标准中的建立联系。相比于其他知识图谱,利用 汽车标准文本的结构性特征构建的知识图谱能够专业化与精确化的展现汽车标准文 件中对象或要素的关联性,为下一步汽车标准的可视化,智能搜索,智能问答等应 用提供有效支撑。

发明内容

本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种汽车标准知识图谱的构建方法。

为了实现本发明的上述目的,本发明提供了一种汽车标准知识图谱的构建方法,包括以下步骤:

S1,获取汽车标准知识文件;

S2,对步骤S1中获取的汽车标准知识文件进行预处理;

S3,对步骤S2中预处理后的汽车标准知识文件进行汽车标准知识图谱进行构建,形成知识图谱。

在本发明的一种优选实施方式中,在步骤S1中,获取汽车标准知识文件的方法为:在全标准信息公共服务平台获取汽车标准知识文件。

在本发明的一种优选实施方式中,在步骤S1中,还包括对获取汽车标准知识文 件内的引用文件进行获取。

在本发明的一种优选实施方式中,在步骤S2中对获取的汽车标准知识文件进行预处理的方法为:先对标准PDF文档进行初始化,下载到内存;通过PDF解析器, 获得PDF页。

在本发明的一种优选实施方式中,获得PDF页的方法为:对于标准内的段落数 据、图片和表格,通过文本提取器获得标准段落数据,通过资源提取器获得图片、 表格数据;

对于标准封面,首先转化为图片,通过OCR自定义模板提取标准封面数据。

在本发明的一种优选实施方式中,在步骤S3中对提取出来的文字构建汽车标准知识图谱的方法为:基于Rappid可视化构建工具,通过拖拽、连线之一或者组合方 式实现schema的绘制。

在本发明的一种优选实施方式中,还包括对数据抽取,其数据抽取的方法为: 采用结构化数据抽取或/和非结构化数据抽取。

在本发明的一种优选实施方式中,还包括对标准图谱知识融合,其标准图谱知 识融合的方法为:通过主键法规则进行知识融合。

在本发明的一种优选实施方式中,还包括对标准图谱进行存储,其对标准图谱 进行存储的方法为:将生成的汽车标准图谱存储至图数据库。

在本发明的一种优选实施方式中,还包括通过检索词检索获取汽车标准知识图谱。

综上所述,由于采用了上述技术方案,本发明能够在实际现场试验检测过程中,用户不需要同时翻看数本标准进行查阅,极大地降低了标准知识检索的步骤及时间。

本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1是本发明知识图谱构建流程示意图。

图2是本发明标准PDF文档处理流程示意图。

图3是本发明结构化数据预处理后的csv文件(部分)示意图。

图4是本发明非结构化段落预处理后的csv文件(部分)示意图。

图5是本发明非结构化引用章节预处理后的部分csv文件(部分)示意图。

图6是本发明汽车标准知识图谱本体模型示意图。

图7是本发明“GB/T 20234.1-2015”的两个知识图谱片段示意图。

图8是本发明“GB/T 20234.1-2015”的两个图谱片段通过“主键法”规则融合 后的图谱示意图。

图9是本发明搜索流程图示意图。

图10是本发明应用检索入口示意图。

图11是本发明“车辆插座的防触电保护”检索结果示意图。

图12是本发明“车辆插座的防触电保护”的搜索链路示意图。

图13是本发明“GB/T 20234.1-2015”的章节关联标识(部分)示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至 终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通 过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明 的限制。

1汽车标准知识图谱的构建

本文对汽车标准GB/T 20234.1-2015及其9篇规范性引用文件为数据来源,通过OCR识别等技术,抽取文本中的核心实体,并根据规则建立关系。在抽取知识时, 主要采用结构化数据抽取及非结构化数据抽取。对于以封面为主基础性结构化数据, 梳理各项数据间明确的关系,直接转化为三元组图结构。对于正文中非结构化数据, 抽取规则有二。其一按照文档段落结构提取“章节->子章节->章节内容”等实体与关 系。其二抽取其规范性引用文件中的引用章节内容时,提取章节中对象的参照关系。 融合多个图谱片段时,需要识别相同的实体,将相同的识别进行融合,并进行实体 属性融合,实体关系融合。本文关于汽车国家标准的知识图谱构建流程如图1所示。

1.1数据描述

以电动汽车检测领域的核心标准GB/T 20234.1-2015为主要数据来源,在全标准信息公共服务平台获取GB/T 20234.1-2015及其规范化引用文件9篇。表1中将上述 标准文本的元信息描述如下。

表1“GB/T 20234.1-2015”及其9篇规范化引用文件

1.2数据预处理

图2为标准PDF文档处理流程。先对标准PDF文档进行初始化,下载到内存。 通过PDF解析器,获得PDF页。对于标准内的段落数据、图片和表格,通过文本提 取器获得标准段落数据,通过资源提取器获得图片、表格数据。对于标准封面,首 先转化为图片,通过OCR自定义模板提取标准封面数据。

其中提取文本、表格以及PDF页转图片代码如下:

提取文本

pdf=pdfparser.open("gbt.pdf")

pages=pdf.pages

for p in pages:

p.extract_text()

提取表格

pdf=pdfparser.open("gbt.pdf")

table=pdf.pages[2].extract_table()

df=pd.DataFrame(table[1:],columns=table[0])

提取图片

pdf=pdfparser.open("gbt.pdf")

page=pdf.pages[0]

img=page.images

data=img[0]['stream'].get_data()

with open('pic.png','wb')as f:

f.write(data)

PDF页转图片

pdf=pdfparser.open("test.pdf")

pages=pdf.pages

for i,p in enumerate(pages):

p.to_image().save(f"第{i+1}页.png",format="PNG")

自定义ocr模板的功能,通过设置锚点(通过锚点匹配定位,图片透视变换对齐),以及内容识别区来得到key-value形式的结构化数据。

对生成的标准段落及标准封面进行知识抽取,主要采用结构化数据抽取及非结构化数据抽取。图片和表格作为多模态数据存储至数据库中。

对于以封面中标准名称、标准编号,发布时间,提出时间等基础性结构化数据, 梳理各项数据之间明确的关系,直接转化为csv.文件,如图3。

对于标准中的如段落非结构化数据,缺乏一定的结构层次及语义不明确,为了 更加清晰地展示标准的逻辑结构特点,经过结构化处理解析获取到需要的知识。结 构化步骤如下:

抽取规则有二。其一按照文档段落结构提取“章节->子章节->章节内容”等实体与关系。其二抽取其规范性引用文件中的引用章节内容时,提取章节中对象的参照 关系。

将pdf格式的10篇标准文本通过OCR技术转化成文本格式。

对于非结构化得正文段落,按照文件段落结构提取“章节->子章节->章节内容”等实体与关系,以csv.文件呈现,如图4。

对于取其规范性引用文件中的引用章节内容时,提取章节中对象的参照关系, 如图5所示,GB/T 20234.1-2015的6.6.1参照GB/T 11918.1-2014的第10章。

1.3汽车标准知识图谱本体构建模型

利用自顶向下的方法进行建模,基于Rappid可视化构建工具,通过拖拽、连线 等方式实现schema的绘制,建立面向GB/T 20234.1-2015汽车标准知识的图谱化数 据模型。如图6的左至右边所示,从相关单位进行标准文本归口;提出部门提出标 准;起草单位进行编制;且新标准替代旧标准;标准的编写依据其他标准;标准引 用其他规范性文件;标准定义术语;标准内包含标准章节;标准章节包括标准子章 节;标准章节参照其他标准的标准章节;每个标准章节下又有相应的章节内容。

本体模型归纳为6个出发点,11种关系,4个入点。其中6个出发点分别为归 口组织、提出部门、起草单位、国家标准和标准章节。11种关系分别为归口、提出、 起草、依据、代替、定义、引用、包含、包括、参照和归属。4个入点分别为国家标 准、术语、规范性引用文件和标准章节,如表2所示。

表2本体模型的节点及关系

1.4汽车标准的知识抽取

把以上GB/T 20234.1-2015及其规范性引用文件的原始结构化数据,按照本体定义的逻辑进行映射,完成标准文本内容的抽取。抽取的内容主要分为实体与实体关 系两类。实体对象的表述如表3所列,共有8类实体,包括归口组织,提出部门, 起草单位,国家标准,规范性引用文件,术语,标准章节,章节内容。

表3汽车标准知识图谱的实体映射类型

汽车标准知识图谱的实体关系主要有11类,如表4所列,其含义分别为全国汽 车标准化技术委员会(SAC/TC 114)负责归口GB/T 20234.1-2015;中华人民共和国 工业和信息化部提出GB/T 20234.1-2015;GB/T 20234.1-2015的编写依据GB/T 1.1-2009给出的规则起草;GB/T 20234.1-2015代替其旧标准GB/T 20234.1-2011;GB/T 20234.1-2015定义“充电连接装置”等术语;GB/T 20234.1-2015引用GB/T 11918.1-2014等9篇标准;GB/T20234.1-2015包含“6要求”等标准章节;GB/T 20234.1-2015的父章节包含子章节;GB/T20234.1-2015的章节内容参照GB/T 11918.1-2014等标准的章节内容;GB/T 20234.1-2015的章节内容归属章节。

表4汽车标准知识图谱的关系映射类型

对GB/T 20234.1-2015《电动汽车传导充电用连接装置第1部分通用要求》分 别进行前言、范围、规范性引用文件、术语、章节内容、章节关联关系的抽取,将 抽取的数据转化为单个图结构,分别形成单个子图谱。图谱中的节点表示实体,边 表示两个实体间的关系。

1.5标准图谱知识融合

知识抽取后,形成多个图谱片段。图7为国家标准GB/T 20234.1-2015相关的两 个图谱片段:GB/T 20234.1-2015引用GB/T 11918.1-2014;中国汽车技术研究中心等 单位负责起草GB/T 20234.1-2015,全国汽车标准化技术委员会负责归口GB/T 20234.1-2015。通过“主键法”规则进行融合,即标准编号作为相同的实体,完成实 体融合归一的过程。

如图8所示,通过GB/T 20234.1-2015标准编号的融合,形成一个标准图谱片段。类似的,其他图谱片段通过“主键法”最终形成由多个图谱片段融合而成的一个大 的GB/T20234.1-2015及其9个规范性引用文件组成的10个标准构成的标准知识图 谱。

1.6汽车标准图谱基于图结构的存储

知识存储引擎将融合后生成的图谱数据分别持久化存储至图数据库Elasticsearch 及Neo4j各一份。Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引 擎,其中存储的标准图谱有利于汽车标准技术指标及知识的全文检索。它能很方便 的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性,能使数据在生产环境变得更有价值。Elasticsearch的实现原理主要分为以下几个步骤,首先用户将数据提交到Elasticsearch数据库中,再通过分词控制器去将对应的语句 分词,将其权重和分词结果一并存入数据,当用户搜索数据时候,再根据权重将结 果排名,打分,再将返回结果呈现给用户。Elasticsearch存储核心代码如下:

图数据库Neo4j将结构化数据存储在网络上而不是表中,存储的标准图谱库能 直接反映图谱的关系结构,在Neo4j图数据库中可实现汽车标准知识的高效存储及 查询功能。Neo4j是一个高性能的NOSQL图形数据库,是一个嵌入式的、基于磁盘 的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络(从 数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引 擎具有成熟数据库的所有特性。Neo4j更好地同时也更高效地描述实体之间的关系。 在现实生活中,每一个实体都与周围的其他实体有着千丝万缕的关系,这些关系里 面所存储的信息甚至要大于身体本身的属性。然后传统的关系型数据库更注重刻画 实体内部的属性,实体与实体之间的关系通常都是利用外键来实现。所以在求解关 系的时候通常需要join操作,而join操作通常又是耗时的。互联网尤其是移动互联 网的爆发式增长本来就使得传统关系型数据库不堪重负,再加上诸如社交网络等应 用对于关系的高需求,可以说关系型数据库已经是毫无优势。而图数据库作为重点 描述数据之间关系的数据库应运而生,成为了NoSQL中非常重要的一部分。而Neo4j 正是图数据库中最为优秀的之一。Neo4j存储核心代码如下:

2数据的基本信息和规模

最终生成的以GB/T 20234.1-2015为中心的汽车标准知识图谱实体类型为8个,关系类型10个,实体实例数量727个,关系实例数量766个。其中归口组织3个, 提出部门3个,起草单位34个,国家标准1个,规范性引用文件9个,术语有61 个,标准章节393个,章节内容219个,如下表5所示。

表5汽车标准知识图谱数据总览

3实际应用及意义

3.1汽车标准的全文检索

汽车标准从文本转化成由实体-关系实体或者实体关系属性组成的图谱,以标准化要素为纽带通过图形化的形式呈现标准、标准条目直接的关联关系。用户可以通 过图谱可视化节点的关联关系,便可以实现对内容的检索。为了方便利用知识图谱 进行检索,本文在此基础上构建了基于ElasticSearch技术的开发了汽车标准检索应用 系统。用户输入查询内容,后台服务先从ElasticSearch中进行NLP语义分词与模糊 搜索,如有匹配项,再根据匹配项从Neo4j中精确搜索,然后把搜索结果组装成页 面所需格式并返回,详情见图9。

通过检索系统,用户可输入标准编号、名称、术语或标准任一内容进行检索。 检索入口如图10所示。用户输入检索标准任一内容,图谱平台通过语义检索查询到 相关的标准文件和文件内容返回到应用,通过检索应用直接定位到想要查阅的内容。

以GB/T 20234.1-2015为例,GB/T 20234.1-2015为中心的标准知识图谱存储至Elasticsearch中,Elasticsearch是一套智能搜索引擎,快速精准用户,直接检索图谱 中的任一内容或技术指标,即全文检索功能,即直接蓝色高亮展示搜索的结果。例 如检索“车辆插座的防触电保护”,则搜索页面直接检索出6.5.1章节“供电插头、 供电插座、车辆插头、车辆插座的防触电保护应满足GB/T 11918.1-2014中第9章的 要求”。其中“车辆插座的防触电保护”蓝色字段展示。如图11所示。这在实际的 现场试验中大大降低了测试人员检索标准内容的时间,提供更加智能、精准、人性 化的结果,提高汽车标准使用率。

“车辆插座的防触电保护”的搜索链路如图12所示,通过图谱的关联关系,搜 索到匹配的标准文档内容,基于图谱本体结构,通过图路径搜索算法,找到具体标 准最短的路径。其中蓝点代表国家标准,黑色的是标准章节,红色的是章节内容。

3.2打破汽车标准之间的文档界限

大部分标准均有规范性引用文件,标准文件中对象或要素的关联性复杂、知识 碎片化程度高。运用标准知识图谱,通过GB/T 20234.1-2015中的“规范性引用文件” 的9个相关标准,加以连接并发散出来,进而打破汽车标准的文档界限。利用图谱 可以快速的呈现标准文件中对象或要素之间的关系,原有碎片化的知识通过图谱的 形式逐步串联成一个关系网络,不再局限于单一标准,实现跨文件协同。

图13为GB/T 20234.1-2015的部分章节关联标识图,章节序号前的链接符号代 表此处引用其他标准内容。如点击“6.14电缆及其连接”前的章节关联标识,页面 即跳转至被引用标准的内容“GB/T 11918.1-2014中第23章的要求”。可一目了然的 了解标准文件中要素之间的的引用关系及内容的关联关系,大大的增强汽车标准的 可读性和阅读效率。

在实际测试过程中,GB/T 20234.1-2015作为强制性检验检测标准。实验人员在测试实验前不再同时拿出GB/T 20234.1-2015及其9篇规范性引用标准文本,来回翻 看相关内容。可直接查看已生成的标准知识图谱检索应用系统,提升效率25%。同 时在新进人员做实验前,提前进行学习,减少学习GB/T 20234.1-2015等10篇标准 的时间,更快的获取标准间的知识。

3.3助力标准向数字化转型

当前标准文本大多为纸质或电子档文件。主要依赖人员阅读,知识获取效率较低。通过标准知识图谱的构建与应用,可将标准内容中包含的复杂信息通过计算机 处理成能够结构化表示的知识,所表示的知识可以通过图形绘制而展现出来。助力 标准向数字化转型,为用户提供有价值的参考。

4结语

本研究为前期的探索性研究,汽车标准知识图谱的构建和应用,相较于于其他 知识图谱已被广泛应用到公安、医疗、交通等多领域,对汽车标准知识图谱的研究 才刚刚开始,还有许多未知需要进一步研究。

后续计划的重点在实现汽车标准自动化建模及应用,将其他关重的汽车标准通过自动化建模自动生成一个总的标准知识谱图,存储至Neo4j及Elasticsearch中,最 终实现大量汽车标准的全文搜索及标准关联关系图谱。用户仅需通过页面导入文档, 之后平台调用AI能力进行文档解析实现结构化。最后平台从结构化之后的数据提取 实体和关系形成图谱。平台通过页面嵌套和API接口的方式开放图谱能力给外部应 用。汽车标准自动化建模形成的标准知识图谱将在新进人员标准培训及现场试验中 具有较大的实际意义。

尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在 不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换 和变型,本发明的范围由权利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号