公开/公告号CN114817496A
专利类型发明专利
公开/公告日2022-07-29
原文格式PDF
申请/专利权人 平安科技(深圳)有限公司;
申请/专利号CN202210375773.2
申请日2022-04-11
分类号G06F16/332(2019.01);G06F16/33(2019.01);G06F40/58(2020.01);
代理机构深圳市力道知识产权代理事务所(普通合伙) 44507;
代理人吴江维
地址 518057 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼
入库时间 2023-06-19 16:12:48
法律状态公告日
法律状态信息
法律状态
2022-08-16
实质审查的生效 IPC(主分类):G06F16/332 专利申请号:2022103757732 申请日:20220411
实质审查的生效
技术领域
本申请涉及人工智能、文字处理领域,尤其涉及一种佛经的外文搜索方法、装置、计算机设备和存储介质。
背景技术
随着时代的发展,佛学越来越受到人们的关注,同时佛教也是中国受众最多的宗教。目前,有很多公司开始研究佛学方面的文化,气质,佛学最基本的学习途径是阅读佛经。佛教发源地为印度,大多数由梵文书写,后面被翻译成多种语言。汉语和英语是世界两大语言,也是中国人面对最多的两个语言,因此,根据佛经原文搜索对应的英文佛经是研究者的一个真实需求。用户在根据佛经原文搜索对应的英文佛经,通常是通过人工比对的方式对佛经文字与英文佛经进行比对,从而得到待搜索的佛经文字对应的英文佛经。这种人工比对方式极大地降低了搜索的效率。
因此,如何提高佛经的外文搜索效率成为亟需解决的问题。
发明内容
本申请提供了一种佛经的外文搜索方法、装置、计算机设备和存储介质,通过对佛经文字进行佛经原文匹配,获取匹配的目标佛经原文对应的白话文,并根据白话文与白话文对应的目标外文段落进行外文匹配,可以实现自动完成佛经的外文搜索,无需人工进行比对,提高了佛经的外文搜索效率。
第一方面,本申请提供了一种佛经的外文搜索方法,所述方法包括:
获取待搜索的佛经文字;
基于佛文匹配模型,对所述佛经文字进行佛经原文匹配,获得所述佛经文字对应匹配的目标佛经原文;
获取所述目标佛经原文对应的白话文,确定所述白话文对应的目标外文段落;
基于阅读理解模型,根据所述白话文与所述目标外文段落进行外文匹配,获得所述佛经文字对应的外文搜索结果。
第二方面,本申请还提供了一种佛经的外文搜索装置,所述装置包括:
佛经文字获取模块,用于获取待搜索的佛经文字;
佛经原文匹配模块,用于基于佛文匹配模型,对所述佛经文字进行佛经原文匹配,获得所述佛经文字对应匹配的目标佛经原文;
外文段落确定模块,用于获取所述目标佛经原文对应的白话文,确定所述白话文对应的目标外文段落;
外文匹配模块,用于基于阅读理解模型,根据所述白话文与所述目标外文段落进行外文匹配,获得所述佛经文字对应的外文搜索结果。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的佛经的外文搜索方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的佛经的外文搜索方法。
本申请公开了一种佛经的外文搜索方法、装置、计算机设备和存储介质,通过获取待搜索的佛经文字,基于佛文匹配模型对佛经文字进行佛经原文匹配,可以获得佛经文字对应匹配的目标佛经原文;通过获取目标佛经原文对应的白话文,并确定白话文对应的目标外文段落,可以实现充分利用佛经原文、白话文以及外文之间的关系进行搜索,相对于对佛经文字直接为翻译外文更加稳定可靠;通过基于阅读理解模型,根据白话文与目标外文段落进行外文匹配,获得佛经文字对应的外文搜索结果,可以实现自动完成佛经的外文搜索,无需人工进行比对,提高了佛经的外文搜索效率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种佛经的外文搜索方法的示意性流程图;
图2是本申请实施例提供的一种对佛经文字进行佛经原文匹配的子步骤的示意性流程图;
图3是本申请实施例提供的一种佛经的外文搜索的示意图;
图4是本申请实施例提供的另一种佛经的外文搜索的示意图;
图5是本申请实施例提供的一种进行外文匹配的子步骤的示意性流程图;
图6是本申请实施例提供的一种显示界面的示意图;
图7是本申请实施例提供的另一种显示界面的示意图;
图8是本申请实施例提供的一种佛经的外文搜索装置的示意性框图;
图9是本申请实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种佛经的外文搜索方法、装置、计算机设备和存储介质。其中,该佛经的外文搜索方法可以应用于服务器或终端中,通过对佛经文字进行佛经原文匹配,获取匹配的目标佛经原文对应的白话文,并根据白话文与白话文对应的目标外文段落进行外文匹配,可以实现自动完成佛经的外文搜索,无需人工进行比对,提高了佛经的外文搜索效率。
其中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑和台式电脑等电子设备。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
如图1所示,佛经的外文搜索方法包括步骤S10至步骤S40。
步骤S10、获取待搜索的佛经文字。
需要说明的是,本申请实施例可以应用于跨语言搜索系统中,用户可以在跨语言搜索系统进行佛经的外文检索。例如,根据佛经检索对应的英文。当然,还可检索其它语言文字的佛经信息,例如,泰文、德文、俄文等等。在本申请实施例中,以检索佛经对应的英文为例进行说明。
示例性的,可以将跨语言搜索系统中的搜索框输入的佛经文字,确定为待搜索的佛经文字。需要说明的是,用户可以在跨语言搜索系统中的搜索框输入单个佛经文字或一段佛经文字,点击搜索按钮,即可以在跨语言搜索系统中搜索界面上查看对应的外文搜索结果。
在一些实施例中,在获取待搜索的佛经文字之后,还可以将待搜索的佛经文字存储在本地数据库或本地磁盘。当用户后续在跨语言搜索系统中的搜索框输入佛经文字时,可以根据本地数据库或本地磁盘存储的佛经文字对正在输入的佛经文字进行补充并显示。从而,可以有效提高用户输入佛经文字的效率。
步骤S20、基于佛文匹配模型,对所述佛经文字进行佛经原文匹配,获得所述佛经文字对应匹配的目标佛经原文。
在本申请实施例中,在获取待搜索的佛经文字后,可以将佛经文字输入佛文匹配模型进行佛经原文匹配,得到佛经文字对应匹配的目标佛经原文。
通过对佛经文字进行佛经原文匹配,可以获得佛经文字对应匹配的目标佛经原文,后续可以获取目标佛经原文对应的白话文,并确定白话文对应的目标外文段落,避免直接将佛经文字翻译成外文。
请参阅图2,图2是本申请实施例提供的一种对佛经文字进行佛经原文匹配的子步骤的示意性流程图,具体可以包括以下步骤S201至步骤S203。
步骤S201、获取至少一个候选佛经原文,分别将所述佛经文字与每个所述候选佛经原文进行拼接,获得每个所述候选佛经原文对应的初始佛经集合。
示例性的,佛经原文可以存储在佛经数据库中。在获取候选佛经原文时,可以查询佛经数据库,将与待查询的佛经文字存在相同或相似文字的佛经语句或佛经段落,确定为候选佛经原文。然后,分别采用[SEP]符号将佛经文字与每个候选佛经原文进行拼接,得到每个候选佛经原文对应的初始佛经集合。
步骤S202、将每个所述初始佛经集合输入所述佛文匹配模型,获得每个所述初始佛经集合对应的匹配分值,所述匹配分值为初始佛经集合中的佛经文字与候选佛经原文匹配的分值。
需要说明的是,佛文匹配模型包括BERT(Bidirectional EncoderRepresentations from Transformer)模型、全连接层以及归一化层。其中,BERT 模型是一种向量化模型,用于输出初始佛经集合中的佛经文字对应的第一词向量与候选佛经原文对应的第二词向量。全连接层用于输出第一词向量与第二词向量之间的相似度,其中,相似度可以作为匹配分值。可以理解的是,第一词向量与第二词向量之间的相似度越大,说明佛经文字与候选佛经原文越匹配,从而第一词向量与第二词向量之间的相似度可以作为初始佛经集合中的佛经文字与候选佛经原文之间的匹配分值。归一化层是一个softmax回归分类器,用于接收一个任意的实值元素,并将实值元素压缩到一个相对概率,该元素对应的相对概率的值都介于0-1之间,且所有实值元素对应的相对概率之和为1。在本申请实施例中,可以将归一化层输出的相对概率,作为初始佛经集合对应的匹配分值。
示例性的,佛文匹配模型可以是训练好的模型。在本申请实施例中,可以采用佛经数据预先对佛文匹配模型进行训练,得到训练好的佛文匹配模型。其中,佛文匹配模型的训练过程为:获取预设数量的佛经样本数据,其中佛经样本数据包括样本佛经文字与样本佛经原文;将样本佛经文字与样本佛经原文进行拼接,确定每一轮训练的训练样本数据,并对每一轮训练样本数据标注类别标签;将当前轮训练样本数据输入BERT模型进行向量化,输出当前轮训练样本数据对应的第一词向量与第二词向量;基于全连接层,对第一词向量与第二词向量进行全连接处理,获得当前轮训练样本数据对应的相似度;基于归一化层,对相似度进行归一化处理,获得当前轮训练样本数据对应的匹配分值;基于预设的损失函数,根据当前轮训练样本数据对应的类别标签计算出损失函数值;当损失函数值大于损失函数阈值时,调整佛文匹配模型中的参数,进行下一轮的训练并计算每一轮的损失函数值;当计算得到的损失函数阈值小于预设损失值或不再变小时,则训练结束,得到训练好的佛文匹配模型。
示例性的,类别标签可以包括匹配和不匹配;预设的损失函数可以采用 list-wise损失函数,当然,也可以采用其它类型的损失函数。例如,绝对值损失函数、对数损失函数、平方损失函数以及指数损失函数等等。
其中,list-wise损失函数为:
式中,score
示例性的,在调整佛文匹配模型中的参数时,可以通过梯度下降算法调整佛文匹配模型的参数,还可以通过反向传播算法调整佛文匹配模型的参数,在此不作限定。预设的损失函数阈值可以根据实际情况设定,具体数值在此不作限定。
通过根据佛经样本数据对初始的佛文匹配模型进行训练至收敛,可以提高训练好的佛经匹配模型进行佛经原文匹配的准确性。通过将每个初始佛经集合输入佛文匹配模型,获得每个初始佛经集合对应的匹配分值,进而可以根据匹配分值将与佛经文字匹配的候选佛经原文确定为目标佛经原文,确保目标佛经原文的准确性。
步骤S203、根据每个所述初始佛经集合对应的匹配分值,确定所述目标佛经原文。
在一些实施例中,根据每个初始佛经集合对应的匹配分值,确定目标佛经原文,可以包括:将匹配分值大于预设阈值的初始佛经集合,确定为目标佛经集合;将目标佛经集合中的候选佛经原文,确定为目标佛经原文。
其中,预设阈值可以根据实际情况设定,具体数值在此不作限定。在本申请实施例中,还可以将匹配分值最大的初始佛经集合,确定为目标佛经集合。
示例性的,可以将目标佛经集合中的候选佛经原文,确定为目标佛经原文。其中,由于候选佛经原文有一个或多个,因此得到的目标佛经原文可以是一个,也可以是多个,可以按照匹配分值的大小,对目标佛经原文进行排序。
请参阅图3,图3是本申请实施例提供的一种佛经的外文搜索的示意图,如图3所示,当佛经文字对应匹配的目标佛经原文为一个时,查询目标佛经原文对应的白话文,查询白话文对应的目标外文段落;然后,基于阅读理解模型,根据白话文与对应的目标外文段落进行外文匹配,获得佛经文字对应的外文搜索结果。
请参阅图4,图4是本申请实施例提供的另一种佛经的外文搜索的示意图,如图4所示,当有多个目标佛经原文时,可以查询每个目标佛经原文对应的白话文,以及查询每个白话文对应的目标外文段落;然后,基于阅读理解模型,根据每个白话文与对应的目标外文段落进行外文匹配,获得佛经文字对应的多个外文搜索结果;最后,根据目标佛经原文的排序,对多个外文搜索结果进行排序。
为进一步保证上述目标佛经原文的私密和安全性,上述目标佛经原文可以存储于一区块链的节点中。
步骤S30、获取所述目标佛经原文对应的白话文,确定所述白话文对应的目标外文段落。
需要说明的是,通过获取目标佛经原文对应的白话文,并确定白话文对应的目标外文段落,间接地解决了根据佛经文字直接检索外文的难处,将可以实现充分利用佛经原文、白话文以及外文之间的关系进行搜索,相对于对佛经文字直接为翻译外文更加稳定可靠,进而提高了佛经的外文搜索的准确性。可以理解的是,若采用机器翻译的方式,直接将待搜索的佛经文字翻译为外文,不仅成本较高,而且翻译的结果也不够准确。
在本申请实施例中,为了便于描述,以目标佛经原文为一个为例进行说明。
示例性的,在获得佛经文字对应匹配的目标佛经原文之后,可以从本地数据库或本地磁盘获取目标佛经原文对应的白话文。需要说明的是,在本申请实施例中,可以预先将佛经原文与对应的白话文进行关联存储。
在一些实施例中,确定白话文对应的目标外文段落,可以包括:基于预设的白话文段落与外文段落之间的对应关系,将白话文所在的白话文段落对应的外文段落,确定为目标外文段落。
在本申请实施例中,可以预先将白话文段落与外文段落进行关联存储至本地数据库或本地磁盘。
在本申请实施例中,通过基于预设的白话文段落与外文段落之间的对应关系,将白话文所在的白话文段落对应的外文段落确定为目标外文段落,可以充分利用现有的佛经数据中的白话文与外文之间的关系,得到白话文对应的目标外文段落,不需要直接将白话文翻译成外文,不仅节省资源,而且得到的目标外文段落更加准确可靠。
步骤S40、基于阅读理解模型,根据所述白话文与所述目标外文段落进行外文匹配,获得所述佛经文字对应的外文搜索结果。
请参阅图5,图5是本申请实施例提供的一种进行外文匹配的子步骤的示意性流程图,具体可以包括以下步骤S401至步骤S403。
步骤S401、将所述白话文与所述目标外文段落进行拼接,获得语句集合,所述语句集合包括至少两个词组。
示例性的,可以通过[SEP]符号将白话文与目标外文段落进行拼接,得到语句集合。
步骤S402、将所述语句集合输入所述阅读理解模型进行答案预测,获得所述语句集合中的每个词组对应的答案预测结果。
需要说明的是,阅读理解模型可以是XLM-Roberta模型,其中,XLM-Roberta 模型是一种用于信息抽取的多语言模型。例如,XLM-Roberta模型可以根据输入的问题、原文,输出对应的答案,其中,答案是从原文中抽取得到的词语。在本申请实施例中,白话文作为问题,目标外文段落作为原文,XLM-Roberta 模型用于对白话文与目标外文段落进行二分类预测,预测哪些词组是开头词组,哪些词组是结尾词组,从而可以根据开头词组与结尾词组对目标外文段落进行抽取,得到外文搜索结果。
示例性的,将语句集合输入阅读理解模型进行答案预测,获得语句集合中的每个词组对应的答案预测结果,其中,答案预测结果包括词组为开头词组对应的第一预测概率和词组为结尾词组对应的第二预测概率。
示例性的,阅读理解模型可以是训练好的模型。在本申请实施例中,可以采用佛经数据预先对阅读理解模型进行训练,得到训练好的阅读理解模型。
其中,阅读理解模型的训练过程为:获取预设数量的佛经数据,其中佛经数据包括样本白话文与样本外文段落;将样本白话文与样本外文段落进行拼接,确定每一轮训练的训练样本数据,并对每一轮训练训练样本数据中的每个词组标注类别标签;将当前轮训练样本数据输入初始的阅读理解模型进行分类预测,输出当前轮训练样本数据对应的分类预测结果;基于预设的损失函数,根据当前轮训练样本数据对应的分类预测结果与类别标签计算出损失函数值;当损失函数值大于损失函数阈值时,调整阅读理解模型中的参数,进行下一轮的训练并计算每一轮的损失函数值;当计算得到的损失函数阈值小于预设损失值或不再变小时,则训练结束,得到训练好的阅读理解模型。
其中,分类预测结果包括词组为开头词组或结尾词组对应的预测概率;类别标签可以包括开头词组和结尾词组;
示例性的,预设的损失函数可以采用交叉熵代价函数,当然,也可以采用其它类型的损失函数,在此不作限定。
其中,交叉熵代价函数为:
式中,p
示例性的,在调整阅读理解模型中的参数时,可以通过梯度下降算法调整阅读理解模型的参数,还可以通过反向传播算法调整阅读理解模型的参数,在此不作限定。损失函数阈值可以根据实际情况设定,具体数值在此不作限定。
通过根据样本白话文与样本外文段落对初始的阅读理解模型进行训练至收敛,可以提高训练好的阅读理解模型的外文匹配的准确性。
步骤S403、根据所述答案预测结果与所述目标外文段落,确定所述外文搜索结果。
在一些实施例中,根据答案预测结果与目标外文段落,确定外文搜索结果,可以包括:根据每个词组对应的第一预测概率与第二预测概率,确定目标开头词组与目标结尾词组;根据目标开头词组与目标结尾词组,确定目标外文段落中的目标语句,将目标语句确定为外文搜索结果。
其中,根据每个词组对应的第一预测概率与第二预测概率,确定目标开头词组与目标结尾词组,包括:确定每个词组对应的第三预测概率,第三预测概率为每个词组的第一预测概率与第二预测概率的差值;确定每个词组对应的第四预测概率,第四预测概率为每个词组的第二预测概率与第一预测概率的差值;将最大的第三预测概率对应的词组,确定为目标开头词组,以及将最大的第四预测概率对应的词组,确定为目标结尾词组。
示例性的,可以将每个词组的第一预测概率减去第二预测概率的差值,确定为每个词组的第三预测概率;将每个词组的第二预测概率减去第一预测概率的差值,确定为每个词组的第四预测概率。
示例性的,对于词组A、B、C、D,若最大的第三预测概率对应的词组为词组A,则将词组A确定为目标开头词组;若最大的第四预测概率对应的词组为词组D,则将词组D确定为目标开头词组。然后,在目标外文段落中,将词组A到词组D之间的语句,确定为目标语句。需要说明的是,目标开头词组与目标结尾词组通常是在目标外文段落中产生,若目标开头词组在白话文中产生,则根据目标开头词组与目标结尾词组,在语句集合中抽取得到目标语句;然后,将目标语句中的白话文部分删除。从而,得到的目标语句为外文。
在一些实施方式中,当检测到用户在跨语言搜索系统中的搜索框输入佛经文字“左降岭南”时,可以基于佛文匹配模型,对佛经文字“左降岭南”进行佛经原文匹配,获得佛经文字“左降岭南”对应匹配的目标佛经原文,例如,目标佛经原文为“慧能严父,本贯范阳,左降流于岭南,作新洲百姓”。然后,获取目标佛经原文对应的白话文,并确定白话文对应的目标外文段落,例如,白话文为“慧能的父亲祖籍范阳,被贬职流放到岭南,成了新州的老百姓”。最后,将上述的白话文以及白话文对应的目标外文段落输入阅读理解模型进行外文匹配,获得佛经文字“左降岭南”对应的外文搜索结果,例如,外文搜索结果为
“HuiNeng's stern father was originally from Fanyang.He was banishedto Xinzhou in Lingnan,where he became a commoner”。
示例性的,在获得佛经文字对应的外文搜索结果之后,可以输出外文搜索结果。例如,在跨语言搜索系统的显示界面显示外文搜索结果。
请参阅图6,图6是本申请实施例提供的一种显示界面的示意图,如图6所示,可以在显示界面显示外文搜索结果。
请参阅图7,图7是本申请实施例提供的另一种显示界面的示意图,如图7 所示,可以在显示界面显示目标佛经原文、白话文以及外文搜索结果。
通过基于阅读理解模型,根据白话文与目标外文段落进行外文匹配,获得佛经文字对应的外文搜索结果,可以实现自动完成佛经的外文搜索,无需人工进行比对,提高了佛经的外文搜索效率。
上述实施例提供的佛经的外文搜索方法,通过对佛经文字进行佛经原文匹配,可以获得佛经文字对应匹配的目标佛经原文,后续可以获取目标佛经原文对应的白话文,并确定白话文对应的目标外文段落,避免直接将佛经文字翻译成外文;通过将每个初始佛经集合输入佛文匹配模型,获得每个初始佛经集合对应的匹配分值,进而可以根据匹配分值将与佛经文字匹配的候选佛经原文确定为目标佛经原文,确保目标佛经原文的准确性;通过获取目标佛经原文对应的白话文,并确定白话文对应的目标外文段落,间接地解决了根据佛经文字直接检索外文的难处,将可以实现充分利用佛经原文、白话文以及外文之间的关系进行搜索,相对于对佛经文字直接为翻译外文更加稳定可靠,进而提高了佛经的外文搜索的准确性;通过基于阅读理解模型,根据白话文与目标外文段落进行外文匹配,获得佛经文字对应的外文搜索结果,可以实现自动完成佛经的外文搜索,无需人工进行比对,提高了佛经的外文搜索效率。
请参阅图8,图8是本申请的实施例还提供一种佛经的外文搜索装置1000 的示意性框图,该佛经的外文搜索装置用于执行前述的佛经的外文搜索方法。其中,该佛经的外文搜索装置可以配置于服务器或终端中。
如图8所示,该佛经的外文搜索装置1000,包括:佛经文字获取模块1001、佛经原文匹配模块1002、外文段落确定模块1003和外文匹配模块1004。
佛经文字获取模块1001,用于获取待搜索的佛经文字。
佛经原文匹配模块1002,用于基于佛文匹配模型,对所述佛经文字进行佛经原文匹配,获得所述佛经文字对应匹配的目标佛经原文。
外文段落确定模块1003,用于获取所述目标佛经原文对应的白话文,确定所述白话文对应的目标外文段落。
外文匹配模块1004,用于基于阅读理解模型,根据所述白话文与所述目标外文段落进行外文匹配,获得所述佛经文字对应的外文搜索结果。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
上述的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图9 所示的计算机设备上运行。
请参阅图9,图9是本申请实施例提供的一种计算机设备的结构示意性框图。
请参阅图9,该计算机设备包括通过系统总线连接的处理器和存储器,其中,存储器可以包括存储介质和内存储器。所述存储介质可以是非易失性存储介质,也可以是易失性存储介质。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种佛经的外文搜索方法。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor, DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待搜索的佛经文字;基于佛文匹配模型,对所述佛经文字进行佛经原文匹配,获得所述佛经文字对应匹配的目标佛经原文;获取所述目标佛经原文对应的白话文,确定所述白话文对应的目标外文段落;基于阅读理解模型,根据所述白话文与所述目标外文段落进行外文匹配,获得所述佛经文字对应的外文搜索结果。
在一个实施例中,所述处理器在实现基于佛文匹配模型,对所述佛经文字进行佛经原文匹配,获得所述佛经文字对应匹配的目标佛经原文时,用于实现:
获取至少一个候选佛经原文,分别将所述佛经文字与每个所述候选佛经原文进行拼接,获得每个所述候选佛经原文对应的初始佛经集合;将每个所述初始佛经集合输入所述佛文匹配模型,获得每个所述初始佛经集合对应的匹配分值,所述匹配分值为初始佛经集合中的佛经文字与候选佛经原文匹配的分值;根据每个所述初始佛经集合对应的匹配分值,确定所述目标佛经原文。
在一个实施例中,所述处理器在实现根据每个所述初始佛经集合对应的匹配分值,确定所述目标佛经原文时,用于实现:
将匹配分值大于预设阈值的初始佛经集合,确定为目标佛经集合;将所述目标佛经集合中的候选佛经原文,确定为所述目标佛经原文。
在一个实施例中,所述处理器在实现确定所述白话文对应的目标外文段落时,用于实现:
基于预设的白话文段落与外文段落之间的对应关系,将所述白话文所在的白话文段落对应的外文段落,确定为所述目标外文段落。
在一个实施例中,所述处理器在实现基于阅读理解模型,根据所述白话文与所述目标外文段落进行外文匹配,获得所述佛经文字对应的外文搜索结果时,用于实现:
将所述白话文与所述目标外文段落进行拼接,获得语句集合,所述语句集合包括至少两个词组;将所述语句集合输入所述阅读理解模型进行答案预测,获得所述语句集合中的每个词组对应的答案预测结果;根据所述答案预测结果与所述目标外文段落,确定所述外文搜索结果。
在一个实施例中,所述答案预测结果包括词组为开头词组对应的第一预测概率和词组为结尾词组对应的第二预测概率;所述处理器在实现根据所述答案预测结果与所述目标外文段落,确定所述外文搜索结果时,用于实现:
根据每个词组对应的第一预测概率与第二预测概率,确定目标开头词组与目标结尾词组;根据所述目标开头词组与所述目标结尾词组,确定所述目标外文段落中的目标语句,将所述目标语句确定为所述外文搜索结果。
在一个实施例中,所述处理器在实现根据每个词组对应的第一预测概率与第二预测概率,确定目标开头词组与目标结尾词组时,用于实现:
确定每个所述词组对应的第三预测概率,所述第三预测概率为每个所述词组的第一预测概率与第二预测概率的差值;确定每个所述词组对应的第四预测概率,所述第四预测概率为每个所述词组的第二预测概率与第一预测概率的差值;将最大的第三预测概率对应的词组,确定为所述目标开头词组,以及将最大的第四预测概率对应的词组,确定为所述目标结尾词组。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项佛经的外文搜索方法。
例如,该程序被处理器加载,可以执行如下步骤:
获取待搜索的佛经文字;基于佛文匹配模型,对所述佛经文字进行佛经原文匹配,获得所述佛经文字对应匹配的目标佛经原文;获取所述目标佛经原文对应的白话文,确定所述白话文对应的目标外文段落;基于阅读理解模型,根据所述白话文与所述目标外文段落进行外文匹配,获得所述佛经文字对应的外文搜索结果。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字卡(Secure Digital Card, SD Card),闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
机译: 搜索结果的搜索方法,设备和装置以及非易失性计算机存储介质
机译: 地图搜索,计算机存储介质和设备的搜索推荐方法和装置
机译: 地图搜索的搜索建议方法和装置,以及计算机存储介质和设备