首页> 中国专利> 用于诊断和维修知识的提取和编辑的半众包回路中专家方法

用于诊断和维修知识的提取和编辑的半众包回路中专家方法

摘要

用于诊断和维修知识的提取和编辑的半众包回路中专家方法。提供了半众包回路中专家信息捕获。从专家用户、机器算法或大众工作者中的一个或多个来获得针对维修问题的解决方案搜索标准。根据所述解决方案搜索标准来进行搜索以标识搜索结果。使用已确认解决方案分类器根据包含已确认的解决方案的相关性和可能性对所述搜索结果进行过滤。将所述搜索结果提供给大众工作者进行分析,以查找并提取已确认的解决方案。如果解决方案不存在于知识库中,则提供所提取的已确认的解决方案用于专家审查,并且将如审查的所提取的已确认的解决方案添加到知识库。否则,如果解决方案已经存在于知识库中,则使用所提取的已确认的解决方案来重新训练所述已确认解决方案分类器。

著录项

  • 公开/公告号CN114861034A

    专利类型发明专利

  • 公开/公告日2022-08-05

    原文格式PDF

  • 申请/专利权人 罗伯特·博世有限公司;

    申请/专利号CN202210116080.1

  • 发明设计人 黄海平;J·E·金;

    申请日2022-02-07

  • 分类号G06F16/9535(2019.01);G06K9/62(2022.01);G06N5/02(2006.01);

  • 代理机构中国专利代理(香港)有限公司 72001;中国专利代理(香港)有限公司 72001;

  • 代理人任一方;刘春元

  • 地址 德国斯图加特

  • 入库时间 2023-06-19 16:16:00

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-08-25

    实质审查的生效 IPC(主分类):G06F16/9535 专利申请号:2022101160801 申请日:20220207

    实质审查的生效

  • 2022-08-05

    公开

    发明专利申请公布

说明书

技术领域

本公开的方面通常涉及用于诊断和维修知识的提取和编辑的半众包回路中专家(expert-in-the-loop)方法。

背景技术

消费者经常带着超出技术人员经验的问题去找技术人员。当出现这种情况时,技术人员咨询诊断和维修知识库(diagnosis-and-repair knowledge base)。

发明内容

在一个或多个说明性示例中,提供了一种用于半众包的回路中专家信息捕获的方法。从专家用户、机器算法或大众工作者中的一个或多个来获得针对维修问题的解决方案搜索标准。根据所述解决方案搜索标准来进行搜索以标识搜索结果。使用已确认解决方案分类器、根据包含已确认的解决方案的相关性和可能性对所述搜索结果进行过滤。将所述搜索结果提供给大众工作者进行分析,以查找并提取已确认的解决方案。如果所述解决方案尚不存在于知识库中,则提供所提取的已确认的解决方案用于专家审查,并且将如审查的所提取的已确认的解决方案添加到知识库。否则,如果解决方案已经存在于知识库中,则使用所提取的已确认的解决方案来重新训练已确认解决方案分类器。

在一个或多个说明性示例中,提供了一种用于半众包回路中专家信息捕获的系统。所述系统包括计算平台,所述计算平台包括硬件处理器。所述处理器被编程为:从专家用户、机器算法或大众工作者中的一个或多个来获得针对维修问题的解决方案搜索标准;根据所述解决方案搜索标准来进行搜索以标识搜索结果;使用已确认解决方案分类器根据包含已确认的解决方案的相关性和可能性对所述搜索结果进行过滤;以及将所述搜索结果提供给大众工作者进行分析,以查找并提取已确认的解决方案。所述处理器被编程为,如果所述解决方案不存在于知识库中,则提供所提取的已确认的解决方案用于专家审查,并且将如审查的所提取的已确认的解决方案添加到知识库;以及否则,如果解决方案已经存在于知识库中,则使用所提取的已确认的解决方案来重新训练所述已确认解决方案分类器。

在一个或多个说明性示例中,提供了一种非暂时性计算机可读介质,其包括用于半众包回路中专家信息捕获的指令。当所述指令由计算设备的处理器执行时,所述计算设备被编程为:从专家用户、机器算法或大众工作者中的一个或多个来获得针对维修问题的解决方案搜索标准;根据所述解决方案搜索标准来进行搜索以标识搜索结果;使用已确认解决方案分类器根据包含已确认的解决方案的相关性和可能性对所述搜索结果进行过滤;将所述搜索结果提供给大众工作者进行分析,以查找并提取已确认的解决方案;如果所述解决方案不存在于知识库中,则提供所提取的已确认的解决方案用于专家审查,并且将如审查的所提取的已确认的解决方案添加到知识库;以及否则,如果解决方案已经存在于知识库中,则使用所提取的已确认的解决方案来重新训练所述已确认解决方案分类器。

附图说明

图1图示了用于知识库构建的半众包回路中专家解决方案提取的过程的流程图;

图2图示了用于知识库构建的半众包回路中专家解决方案提取的示例系统;

图3图示了针对论坛通用资源定位符(URL)的帖子(post)的论坛分类和提取的示例过程;

图4图示了利用内容匹配对URL进行评分的示例过程;

图5图示了针对大众工作者从机器定位的论坛话题(thread)查找并提取已确认的解决方案的示例模板用户界面;

图6A、图6B和图6C均图示了针对来自大众工作者的所提取的解决方案的专家审查的示例模板用户界面;以及

图7图示了供在知识库构建的半众包回路中专家解决方案提取中使用的示例计算设备。

具体实施方式

如所需要的那样,本文中公开了本发明的详细实施例;然而,要理解的是,所公开的实施例仅仅是本发明的示例,本发明可以以各种形式和替代形式来体现。各图不一定是按比例的;一些特征可以被夸大或最小化以示出特定组件的细节。因此,本文中公开的具体结构和功能细节不应被解释为限制性的,而仅仅是作为教导本领域技术人员以各种方式采用本发明的代表性基础。

当领域专家编辑针对诊断和维修的问题解决方案知识库时,他们通常被给予问题列表,针对所述问题列表,他们进行广泛的在线搜索以查找有效的解决方案。如果有人确认解决方案解决了该问题,则该解决方案被视为有效。例如,当给定诸如“本田雅阁当在50MPH以上行进时进行震动”之类的问题时,领域专家可以针对关于该问题的讨论来搜索在线网络论坛,阅读讨论帖子,并提取包含被至少一个发帖者确认起作用的解决方案的帖子。这样的帖子将被认为是“已确认的解决方案”,并且示例可以是:“我遇到了该相同的问题,并且我更换了我的化油器并修复了它。”然后,领域专家将该解决方案作为对该问题的正式已确认的解决方案包括在维修知识库中。

本公开的方面通常涉及对诊断和维修知识的半众包回路中专家提取和编辑。在给定维修问题的情况下,从专家用户、机器算法或大众工作者中的一个或多个来获得解决方案搜索标准。然后,进行搜索,其中(例如,使用已确认解决方案分类器)基于包含已确认的解决方案的相关性和可能性对结果进行过滤。大众工作者分析搜索结果以查找并提取已确认的解决方案。检查所提取的解决方案,以查看它们是否已经存在于知识库中。如果解决方案不存在,则专家审查新的解决方案,并且相应地将它们添加到知识库。否则,仅仅使用解决方案来重新训练已确认解决方案分类器。

该方法通过节省领域专家在搜索用于包括在知识库中的解决方案方面的时间来降低成本。该方法通过在搜索工作中利用机器和低成本大众工作者来实现时间节省;领域专家仅需要提供最低限度的初始搜索指导以及对所提取的解决方案的最终审查和批准。大部分搜索和解决方案提取工作是由机器和大众工作者完成的。

当领域专家阅读网络论坛帖子以查找解决方案时,他们依赖于语句情绪(例如,措辞)来标识已确认的解决方案。领域专家可以标识关键短语,诸如“我遇到了该相同的问题,并且我这样做来修复它,”或者“根据我的经验,这些步骤解决了该问题”等等。该特定情绪分析可以由诸如大众工作者之类的非领域专家来执行,该非领域专家可以以比领域专家低的成本来执行该任务。然而,虽然大众工作者可以理解语句情绪,但是大众工作者可能缺乏领域专业知识,并且因此可能不能够正确地执行与维修问题相关的源的初始搜索。

因此,所公开的方法组合了领域专家和大众工作者两者的力量,从而以较低的成本且大规模地提取解决方案并编辑知识库。领域专家提供针对初始搜索的指导,机器执行搜索,并且将结果转发给大众工作者进行情绪分析以查找已确认的解决方案,并且然后领域专家快速地审查所提取的解决方案并且将它们并入到知识库中。

从大众和专家学习到的知识被用来改进机器学习模型。经由众包和/或领域专家初始创建的小数据集随着各种方法以及该系统所生成的新知识而增加。利用向该模型注入的新数据集来改进模型性能,并且创建众包任务和专家审查任务的系统如主动学习那样起作用。

图1图示了用于知识库构建的半众包回路中专家解决方案提取的示例系统100。如所示出,该系统包括用于大众工作者和专家的用户界面102、诸如互联网之类的通信网络104以及用于编排机器和人类任务的工作流程管理器106。在工作流程管理器106的操作下,系统100包括用于提取帖子的解析器108、论坛分类器110、已确认修复分类器112和已确认修复人类任务处理器114。关于数据,系统100还包括:产品目录116,其可以包含可比较模型的各种术语和/或指示的同义词;组件字典118,其包括可以在论坛或其他网站中使用的正式名称、首字母缩略词、同义词和行话;维修动作词汇字典120;以及已确认修复知识库122,其存储问题的指示、已确认修复帖子、概要等。

图2图示了用于知识库构建的半众包回路中专家解决方案提取的过程200的流程图。过程200可以在上面提到的工作流程管理器106的控制下使用系统100的方面来执行。如所示出,该过程开始于操作202,在操作202处,给出不具有解决方案的维修问题。在给定维修问题的情况下,通过以下三种可能性之一来给出针对解决方案的搜索策略:操作204处的专家指导、操作206处的机器策略或208处的众包策略。

在操作204处,领域专家向机器提供用于进行在线解决方案搜索的初始指导。作为一些示例,该指导可以包括:感兴趣产品细节(例如,汽车品牌、型号、年份、发动机类型)、针对维修问题的搜索术语(包括标准)(例如,“在35 mph以上震动”)和/或通常通过包括标准而发现但是专家知道不相关的排除标准方面(例如,“进气门”)。

在替代方案中,在操作206处,通过利用领域词汇和/或领域模型(例如,汽车组件字典、动作动词等)来利用机器策略。作为又一个替代方案,在操作208处,大众工作者可以阅读维修问题并且形成搜索策略(例如,创建一组适当的谷歌搜索术语)。应当注意的是,可以执行操作204、206和208的组合。作为一个组合可能性,机器生成的搜索术语也可以可选地由专家来审查。作为另一个组合可能性,可以由机器来评估众包搜索术语,以便丢弃具有低质量或相关性的术语。

无论如何,从操作204、206和208,控制进行到操作210,在操作210处,系统100基于如操作204、206和208中描述的由领域专家连同机器支持所提供的产品(例如,车辆)信息和搜索术语来进行搜索。此外,系统100可以针对与原始维修问题具有高相关性并且来自论坛的结果来对结果进行过滤。

这些搜索可以由解析器108使用各种搜索API(例如,谷歌(TM)搜索API、必应(TM)搜索API等)来执行。例如,搜索可以用于检索前

系统100可以利用论坛分类器110以基于规则和/或利用正面和负面论坛源所训练的机器学习模型来执行论坛分类。启发式规则的示例包括URL和内容中的论坛相关的关键词、内容中的日期和时间格式的频率、内容中的分页、内容中的用户信息和/或内容中的用户喜好。可以随时间更新这些启发式方法。启发式规则的一些示例在图3中图示,下面详细讨论。

论坛分类器110还可以对具有高相关性的源进行排名。该排名可以包括例如匹配搜索标准(例如,产品信息、问题、有问题的产品组件(例如,如果是汽车问题,则是“我的发动机很响”)等)。该排名还可以包括使用关于产品的领域知识来进行更智能的搜索/过滤(例如,标识出由于两个车辆型号具有相同的发动机,所以当给定一个或另一个车辆时,系统100可以针对两者进行搜索)。作为另一种可能性,该排名可以包括使用组件字典来利用同义词进行搜索,该同义词包括产品部件的非正式术语。系统100还可以使用包含动作/动词/形容词同义词的维修动作词汇和/或字典来扩展该搜索,例如“修复/维修”、“更换/改变”、“很响/有噪声”等。不同的权重适用于HTML内容中的相关词语的存在/位置。基于来自产品相关性和搜索术语相关性的评分,可以对源进行排序。

使用确认修复分类器112,如通过机器学习来检测问题帖子、解决方案帖子和已确认修复解决方案的存在。如果给定网络资源的已确认修复概率评分高于阈值(例如,90%)和/或低于下限(例如,10%),则可以跳过具有大众工作者的操作212。具有正面评分的源被呈现给专家,并且具有负面评分的源被丢弃。

使用已确认修复人类任务处理器114,可以如下那样提供已确认修复分类器的地面真值的构造。从网络资源提取的每个帖子可以用来对问题帖子、解决方案帖子和已确认修复帖子进行分类。初始数据集可以利用众包或领域专家的注释来构造。至于问题帖子,可以使用每个论坛话题的第一个帖子。初始数据集可以包含小的正面的已确认修复帖子,其中每个帖子指示关于利用所建议的解决方案来维修问题的正面情绪。要注意的是,网络源中的大多数帖子经常包含非正面的帖子。可以首先通过搜索包含/匹配领域组件字典中的产品部件术语的帖子来标识解决方案帖子。匹配的帖子可以用于众包或领域专家的注释。基于该初始数据集,可以通过利用在正面的已确认修复帖子中找到的关键词的同义词来构造该正面帖子的附加关键词。例如,如果一帖子包括诸如“它解决(solve)了我的问题”之类的语言,那么将“解决掉(work out)”和“解决了(resolve)”添加为“解决(solve)”关键词的同义词关键词。此外,搜索/爬取/解析网络源可以用于找到包含组件字典中的关键词和术语的帖子,并且创建众包任务以增加数据集中的已确认修复和解决方案正面帖子。

已确认修复分类器112模型的训练可以如下那样执行。可以使用正面和负面帖子二者来训练模型。诸如多层感知器(MLP)、随机森林、逻辑回归和深度学习分类模型之类的各种机器学习算法可以用于训练模型。机器学习模型中使用的特征可以利用术语频率-反向文档频率(TFIDF)、依赖解析器和/或N-gram解析的使用来向量化,但是这些是非限制性的示例,并且可能性不限于那些方法。对于具有高已确认修复概率的源,系统100可以使用(与已确认修复帖子)邻近的帖子来对解决方案帖子进行分类或不对解决方案帖子进行分类。基于产品问题帖子预测、已确认的修复帖子预测和解决方案帖子预测的评分,可以估计给定资源的总预测。基于针对给定资源的预测,系统100确定对于众包任务是否需要资源。

在操作212处,大众工作者分析由操作210过滤的搜索结果以查找并提取解决方案。这可以例如经由与用户界面102交互的已确认修复人类任务处理器114来实现。例如,搜索结果可能是讨论了类似于该给定问题的维修问题的一系列网络论坛,并且大众工作者阅读帖子并且基于文本的情绪来查找已确认的解决方案(例如,“我那时遇到了相同的问题,并且这是我如何修复它的……”)。下面关于图5讨论了针对大众工作者从机器定位的论坛话题查找并提取已确认的解决方案的示例模板用户界面。

大众工作者可以验证搜索结果网页是维修信息的源,例如讨论了特定汽车维修问题的网络论坛话题(其示例在图6A-6C中示出)。大众工作者还可以阅读该讨论并且提取看起来是已确认的解决方案的内容,即基于讨论参与者的经验的解决方案。大众工作者还可以突出显示和/或提取指示已确认修复情绪的关键术语和/或短语。这些片段可以用于训练已确认修复分类器112机器在已确认修复分类中更准确。具体地,系统100可以使用这些术语来查找更多可能的已确认修复帖子,所述已确认修复帖子然后可以在被用作用于已确认修复分类器112的训练数据之前由大众工作者验证。

在操作214处,系统100使用相似性计算来检查问题和解决方案组合是否已经存在于知识库中。如果没有,则在操作216处,专家可以确认它并且将它添加到知识库122。否则,在操作218处,结果可以仅用于改进已确认修复分类器112。因此,在操作218处,利用被注入到已确认修复分类器112模型中的新数据集来改进模型性能,使得系统100创建众包任务和专家审查任务以执行主动学习。

图3图示了针对论坛URL的帖子的论坛分类和提取的示例过程300。过程300可以例如由如上提到的解析器108和论坛分类器110来执行,并且描述了过程200的另外细节。如进一步详细示出的,在302处输入或以其他方式接收查询,诸如关于操作202所提到的那样。基于该查询,如上面在操作210处讨论的,在操作304处由解析器108执行搜索以在操作306处标识顶部URL。

在操作308处,论坛分类器110利用基于规则的论坛评分来对顶部URL进行评分。这些规则310可以包括例如基于URL的网页的内容的各种方面来应用评分。作为一些示例,如果论坛相关的关键词位于URL本身中,则可以将第一值应用于URL(例如,0.5),如果论坛相关的关键词位于网页的内容中,则可以将第二值应用于URL(例如,0.2),如果在内容中至少找到数据和时间格式的频率,则可以将第三值应用于URL(例如,0.1),如果在内容中找到分页,则可以将第四值应用于URL(例如,0.05),如果在内容中找到用户信息,则可以将第五值应用于URL(例如,0.1),和/或如果在内容中找到用户喜好,则可以将第六值应用于URL(例如,0.05)。

在操作312处,使用评分规则,编辑URL的列表。例如,该列表可以包括使用规则310如在操作308处确定的具有最高评分的URL。关于过程400在图4中描述了URL评分的另外方面。

在操作314处,论坛分类器110抓取列表的URL,以从URL检索HTML内容316。在操作318处提取主体内容(例如,从HTML标记到没有标记的纯文本中)。

在操作320处,从网页提取所提取的主体内容内的每个帖子。例如,在操作324处,在帖子中找到了至少预定义数量的停用词(例如,3个)的情形下,可以使用停用词322的数据库来确定帖子边界。基于每个被分割出的帖子,在操作326处,将每个帖子查询回到HTML内容中以准确地提取帖子。例如,这可能涉及检索整个帖子作为单独的网络结果。

在操作328处,列出来自URL的帖子作为输出。此外,在操作330处,还针对可以用于进一步通知查找操作的附加链接来爬取帖子的URL内容。

图4图示了利用内容匹配对URL评分的示例过程400。过程400描述了上面提到的操作318的另外细节。如所示出,去往过程400的输入包括诸如牌子或品牌402、型号404和搜索术语406之类的信息。如上面提到的,在410处爬取408处的URL以产生爬取内容。如所示出,爬取内容412可以包括诸如从其捕获到内容的URL、网页的标题、网页的“H1”第一标题标签、指示该搜索如何到达URL的面包屑(bread crumb)以及主体内容本身之类的数据。

关于牌子或品牌402,如果在操作414处,爬取内容412的这些部分中的任何部分包括牌子或品牌402,则在操作416处可以增加该URL的评分(例如,在0到1的标度上增加1/3)。关于型号404,如果在操作418处,爬取内容412的这些部分中的任何部分包括型号404,则在操作420处可以增加该URL的评分(例如,在0到1的标度上增加1/3)。关于搜索术语406,如果在操作422处,爬取内容412的这些部分中的任何部分包括至少部分(例如,>=0.5)搜索术语406,则在操作424处可以增加该URL的评分(例如,在0到1的标度上增加1/3)。或者,如果在操作426处,主体内容包括至少部分(例如,>=0.6)搜索术语406,并且其他部分具有大于零的合并总评分,则在操作424处也可以增加该URL的评分。在操作426处,来自操作416、420和424中的每一个的总评分被总计以确定总评分(例如,在0到1的标度上)。

图5图示了针对大众工作者从机器定位的论坛话题查找并提取已确认的解决方案的模板用户界面的示例用户界面500。该用户界面500可以包括例如向大众工作者解释如何填写该表单的指令502。用户界面500可以进一步包括将由大众工作者回答的问题504的列表。一旦问题504被完成,用户就利用该用户界面的提交506控制来向系统100提交答案。

图6A、图6B和图6C均图示了用于来自大众工作者的所提取的解决方案的专家审查的示例模板用户界面600A、600B、600C。用户界面600A、600B、600C包括关于将被解决的问题602的信息以及讨论了该问题的话题的URL位置604和来自该URL的话题的帖子606。如所示出,图6A、图6B和图6C中的每一个图示了针对相同问题602的不同URL位置604话题和对应的帖子606。

因此,通过使用所描述的系统和方法,提供了半众包回路中专家信息捕获。从专家用户或机器算法中的一个或多个来获得针对维修问题的解决方案搜索标准。根据解决方案搜索标准来进行搜索以标识搜索结果。使用已确认解决方案分类器根据包含已确认的解决方案的相关性和可能性对所述搜索结果进行过滤。将所述搜索结果提供给大众工作者进行分析,以查找并提取已确认的解决方案。如果解决方案不存在于知识库中,则提供所提取的已确认的解决方案用于专家审查,并且将如审查的所提取的已确认的解决方案添加到知识库。否则,如果解决方案已经存在于知识库中,则使用所提取的已确认的解决方案来重新训练已确认解决方案分类器。

本文中讨论的一个或多个实施例的算法和/或方法使用计算设备来实现,该计算设备诸如是图7中图示的计算平台700。计算平台700可以包括存储器702、非易失性存储装置704、处理器706、输入设备708、输出设备710和网络设备712。

存储器702可以包括单个存储器设备或多个存储器设备,其包括但不限于随机存取存储器(RAM)、易失性存储器、非易失性存储器、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、闪速存储器、高速缓冲存储器或能够存储信息的任何其他设备。非易失性存储装置704可以包括一个或多个持久性数据存储设备,诸如硬盘驱动器、光学驱动器、磁带驱动器、非易失性固态设备、云存储装置或能够持久地存储信息的任何其他设备。

处理器706可以包括从高性能计算(HPC)系统选择的一个或多个设备,其包括高性能核、微处理器、微控制器、数字信号处理器、微型计算机、中央处理单元(CPU)、图形处理单元(GPU)、张量处理单元(TPU)、现场可编程门阵列、可编程逻辑器件、状态机、逻辑电路、模拟电路、数字电路或基于驻留在存储器702中的计算机可执行指令来操纵信号(模拟或数字)的任何其他设备。

处理器706可以被配置为读入存储器702中并且执行驻留在非易失性存储装置704中的计算机可执行指令。计算机可执行指令当由处理器706执行时,可以使得计算平台700实现本文中公开的算法和/或方法中的一个或多个。

计算平台700可以进一步包括:一个或多个输入设备708,诸如按钮和/或触敏显示屏;以及输出设备710,诸如灯、扬声器和/或显示屏。计算平台700还可以包括一个或多个网络设备712,一个或多个网络设备712诸如是可以用于允许计算平台700通过通信网络与其他计算平台700进行通信的调制解调器或者其他有线或无线收发器。

存储在计算机可读介质中的计算机可读程序指令可以用于引导计算机、其他类型的可编程数据处理装置或其他设备以特定方式运作,使得存储在计算机可读介质中的指令产生包括实现流程图或示图中指定的功能、动作和/或操作的指令的制品。在某些替代实施例中,流程图和示图中指定的功能、动作和/或操作可以按照一个或多个实施例被重新排序、串行处理和/或同时处理。此外,流程图和/或示图中的任一个可以包括比按照一个或多个实施例所图示的那些节点或块更多或更少的节点或块。

虽然上面描述了示例性实施例,但是这些实施例不意图描述本发明的所有可能形式。而是,说明书中使用的词语是描述性的词语,而不是限制性的词语,并且要理解的是,可以在不脱离本发明的精神和范围的情况下进行各种改变。附加地,各种实现实施例的特征可以被组合以形成本发明的另外实施例。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号