首页> 中国专利> 书籍主人公姓名的提取方法、电子设备及存储介质

书籍主人公姓名的提取方法、电子设备及存储介质

摘要

本发明公开了一种书籍主人公姓名的提取方法、电子设备及存储介质,其中,书籍主人公姓名的提取方法包括:对待处理书籍中的文本内容进行分词处理,得到包含有多个第一词语的第一词语集合;在第一词语集合中查找与姓氏特征匹配的词语,得到包含有多个第二词语的第二词语集合;根据多个第二词语的分布信息,从第二词语集合中确定待处理书籍中的主人公姓名。根据本发明提供的技术方案,能够准确、快速地从书籍中提取出主人公姓名,极大地缩小了数据处理量,有效地提高了主人公姓名提取效率。

著录项

  • 公开/公告号CN107608965A

    专利类型发明专利

  • 公开/公告日2018-01-19

    原文格式PDF

  • 申请/专利权人 掌阅科技股份有限公司;

    申请/专利号CN201710827796.1

  • 发明设计人 周兴博;

    申请日2017-09-14

  • 分类号

  • 代理机构北京市浩天知识产权代理事务所(普通合伙);

  • 代理人宋菲

  • 地址 100124 北京市朝阳区四惠大厦2029E

  • 入库时间 2023-06-19 04:21:55

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-10-19

    授权

    授权

  • 2018-02-13

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20170914

    实质审查的生效

  • 2018-01-19

    公开

    公开

说明书

技术领域

本发明涉及信息处理技术领域,具体涉及一种书籍主人公姓名的提取方 法、电子设备及存储介质。

背景技术

人们在利用互联网技术进行书籍搜索的过程中,一般是将书籍的名称作 为搜索关键词进行搜索,有时用户也可能不记得书籍的名称,而只记得该书 籍中主人公姓名,那么在这种情况下,用户会将主人公姓名作为搜索关键词 进行搜索。然而,在现有技术中存在着无法准确、快速地从书籍中提取出主 人公姓名的问题,进而导致在利用主人公姓名进行书籍搜索时搜索效率较低、 无法准确地命中对应的书籍。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分 地解决上述问题的书籍主人公姓名的提取方法、电子设备及存储介质。

根据本发明的一个方面,提供了一种书籍主人公姓名的提取方法,该方 法包括:

对待处理书籍中的文本内容进行分词处理,得到包含有多个第一词语的 第一词语集合;

在第一词语集合中查找与姓氏特征匹配的词语,得到包含有多个第二词 语的第二词语集合;

根据多个第二词语的分布信息,从第二词语集合中确定待处理书籍中的 主人公姓名。

根据本发明的另一方面,提供了一种电子设备,包括:处理器、存储器、 通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间 的通信;

存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:

对待处理书籍中的文本内容进行分词处理,得到包含有多个第一词语的 第一词语集合;

在第一词语集合中查找与姓氏特征匹配的词语,得到包含有多个第二词 语的第二词语集合;

根据多个第二词语的分布信息,从第二词语集合中确定待处理书籍中的 主人公姓名。

根据本发明的又一方面,提供了一种存储介质,存储介质中存储有至少 一可执行指令,可执行指令使处理器执行以下操作:

对待处理书籍中的文本内容进行分词处理,得到包含有多个第一词语的 第一词语集合;

在第一词语集合中查找与姓氏特征匹配的词语,得到包含有多个第二词 语的第二词语集合;

根据多个第二词语的分布信息,从第二词语集合中确定待处理书籍中的 主人公姓名。

根据本发明提供的技术方案,对待处理书籍中的文本内容进行分词处理, 得到包含有多个第一词语的第一词语集合,接着在第一词语集合中查找与姓 氏特征匹配的词语,得到包含有多个第二词语的第二词语集合,然后根据多 个第二词语的分布信息,从第二词语集合中确定待处理书籍中的主人公姓名。 利用本发明提供的技术方案,将分词处理得到的词语集合与姓氏特征进行匹 配并结合词语的分布信息,能够准确、快速地从书籍中提取出主人公姓名, 极大地缩小了数据处理量,有效地提高了主人公姓名提取效率。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技 术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它 目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本 领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的, 而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示 相同的部件。在附图中:

图1示出了根据本发明实施例一的一种书籍主人公姓名的提取方法的流 程示意图;

图2示出了根据本发明实施例二的一种书籍主人公姓名的提取方法的流 程示意图;

图3示出了根据本发明实施例四的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示 了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不 应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地 理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

图1示出了根据本发明实施例一的一种书籍主人公姓名的提取方法的流 程示意图,如图1所示,该方法包括如下步骤:

步骤S100,对待处理书籍中的文本内容进行分词处理,得到包含有多个 第一词语的第一词语集合。

为了能够从待处理书籍中的文本内容中提取出待处理书籍的主人公姓 名,在步骤S100中,可利用预设分词算法对待处理书籍中的文本内容进行 分词处理,然后将分词处理后的所得到的符合预设成词规则的能够成词的词 语确定为第一词语,从而得到包含有多个第一词语的第一词语集合。本领域 技术人员可根据实际需要设置预设分词算法和预设成词规则,此处不做限定。

步骤S101,在第一词语集合中查找与姓氏特征匹配的词语,得到包含有 多个第二词语的第二词语集合。

主人公姓名一般具有特定国家的姓氏特征,因此在第一词语集合中查找 与姓氏特征匹配的词语,将查找到的与姓氏特征匹配的词语确定为第二词语, 从而得到包含有多个第二词语的第二词语集合。第一词语集合是由对待处理 书籍中的文本内容进行分词处理所得到的能够成词的词语组成的,而第二词 语集合是由在第一词语集合中查找到的与姓氏特征匹配的词语组成的,因此, 第二词语集合的集合大小远远小于第一词语集合的集合大小,极大地缩小了 数据处理量,有助于快速地确定出待处理书籍中的主人公姓名。

步骤S102,根据多个第二词语的分布信息,从第二词语集合中确定待处 理书籍中的主人公姓名。

具体地,第二词语的分布信息可包括该第二词语在待处理书籍中的词频、 首次出现位置信息和出现章节分布信息等信息。在一般情况下,书籍中的主 人公姓名的分布信息大多都符合特定分布特征,例如,主人公姓名在该书籍 中的词频较高、首次出现在书籍的第一章节、出现在书籍的每个章节中等。 因此,在步骤S102中,可根据多个第二词语的分布信息,从第二词语集合 中将分布信息符合特定分布特征的第二词语确定为待处理书籍中的主人公姓 名。

利用本实施例提供的书籍主人公姓名的提取方法,对待处理书籍中的文 本内容进行分词处理,得到包含有多个第一词语的第一词语集合,接着在第 一词语集合中查找与姓氏特征匹配的词语,得到包含有多个第二词语的第二 词语集合,然后根据多个第二词语的分布信息,从第二词语集合中确定待处 理书籍中的主人公姓名。利用本发明提供的技术方案,将分词处理得到的词 语集合与姓氏特征进行匹配并结合词语的分布信息,能够准确、快速地从书 籍中提取出主人公姓名,极大地缩小了数据处理量,有效地提高了主人公姓 名提取效率。

实施例二

图2示出了根据本发明实施例二的一种书籍主人公姓名的提取方法的流 程示意图,如图2所示,该方法包括如下步骤:

步骤S200,对样本姓氏数据进行分析,得到姓氏特征。

由于主人公姓名一般具有特定国家的姓氏特征,为了能够有效地从待处 理书籍中提取出主人公姓名,在步骤S200中,需要对样本姓氏数据进行整 理与分析,得到姓氏特征。其中,样本姓氏数据包括经人工标注的姓氏数据、 大数据统计得到的人名名单、从词库中获取的姓氏文件以及其他的姓氏数据 等,此处不做限定。以特定国家为中国为例,样本姓氏数据还可包括百家姓 等姓氏数据,姓氏特征可包括赵、钱、孙、李等姓氏。

步骤S201,利用预设分词算法,对待处理书籍中的文本内容进行切分处 理,得到多个分词。

本领域技术人员可根据实际需要设置预设分词算法,此处不做限定。在 一个具体实例中,若待处理书籍为中文书籍,所利用的预设分词算法为n-gram 分词算法,其中n表示按照n个字符进行切分处理。由于在中文中,字符即 为汉字,主人公姓名大多为2-4个汉字,因此,可将n分别设置为2、3和4, 分别对待处理书籍中的文本内容进行切分处理,得到多个分词,从而能够更 加全面地切分得到可能为主人公姓名的分词。

例如,待处理书籍中的文本内容为“我爱看世界名著”,那么当将n设 置为2时,利用该分词算法对该文本内容进行切分处理后所得到的分词包括: “我爱”、“爱看”、“看世”、“世界”、“界名”和“名著”;当将n 设置为3时,利用该分词算法对该文本内容进行切分处理后所得到的分词包 括:“我爱看”、“爱看世”、“看世界”、“世界名”和“界名著”;当 将n设置为4时,利用该分词算法对该文本内容进行切分处理后所得到的分 词包括:“我爱看世”、“爱看世界”、“看世界名”和“世界名著”。因 此将n分别设置为2、3和4,分别对该文本内容进行切分处理后所得到的分 词包括:“我爱”、“爱看”、“看世”、“世界”、“界名”、“名著”、 “我爱看”、“爱看世”、“看世界”、“世界名”、“界名著”、“我爱 看世”、“爱看世界”、“看世界名”和“世界名著”。

由上述举例可知,步骤S201所得到的多个分词中包括了许多不能够成词 的分词,那么为了确定步骤S201所得到的多个分词是否能够成词,还需要 计算每一个分词在待处理书籍中的凝固度参数和自由度参数,然后根据计算 得到的凝固度参数和自由度参数是否符合预设成词规则来确定该分词是否能 够成词。

步骤S202,针对每一个分词,计算分词在待处理书籍中的凝固度参数和 自由度参数。

其中,计算分词在待处理书籍中的凝固度参数进一步包括:对分词进行 分割,得到多个分词元素;根据待处理书籍中的文本内容的总字数和分词在 待处理书籍中的总出现次数,计算分词在待处理书籍中的出现概率;针对每 一个分词元素,根据待处理书籍中的文本内容的总字数和分词元素在待处理 书籍中的总出现次数,计算分词元素在待处理书籍中的出现概率;依据分词 在待处理书籍中的出现概率和多个分词元素在待处理书籍中的出现概率,计 算得到分词在待处理书籍中的凝固度参数。

以分词为“上海”为例进行说明,对该分词进行分割所得到的分词元素 包括分词元素“上”和分词元素“海”,假设待处理书籍中的文本内容的总 字数为20000字,分词“上海”在待处理书籍中的总出现次数为50次,分词 元素“上”在待处理书籍中的总出现次数为100次,分词元素“海”在待处 理书籍中的总出现次数为80次,那么分词“上海”在待处理书籍中的总出现 次数除以文本内容的总字数,得到分词“上海”在待处理书籍中的出现概率 为0.0025,同理,分词元素“上”在待处理书籍中的出现概率为0.005,分词 元素“海”在待处理书籍中的出现概率为0.004。在本发明中,可将该分词在 待处理书籍中的凝固度参数定义为该分词在待处理书籍中的出现概率与该分 词的多个分词元素在待处理书籍中的出现概率的比值,那么分词“上海”在 待处理书籍中的凝固度参数等于0.0025/(0.005×0.004),该凝固度参数为 125。

计算分词在待处理书籍中的自由度参数进一步包括:在待处理书籍中查 找分词的左邻字和右邻字,得到包含有左邻字的左邻字集合和包含有右邻字 的右邻字集合;利用左邻字集合计算分词的左邻字信息熵值;利用右邻字集 合计算分词的右邻字信息熵值;根据计算得到的左邻字信息熵值和右邻字信 息熵值,计算得到分词在待处理书籍中的自由度参数。

以分词为“葡萄”为例进行说明,假设待处理书籍的文本内容为“吃葡 萄不吐葡萄皮不吃葡萄倒吐葡萄皮”,在该文本内容中,分词“葡萄”出现 了4次,分词“葡萄”的左邻字集合为{“吃”,“吐”,“吃”,“吐”},分 词“葡萄”的右邻字集合为{“不”,“皮”,“倒”,“皮”},那么根据信息 熵公式,利用左邻字集合计算分词“葡萄”的左邻字信息熵值,利用右邻字 集合计算分词的右邻字信息熵值。具体地,分词“葡萄”的左邻字信息熵值 等于-(1/2)〃log(1/2)-(1/2)〃log(1/2),约为0.693;分词“葡萄”的右邻字信息 熵值等于-(1/4)〃log(1/4)-(1/2)〃log(1/2)-(1/4)〃log(1/4),约为1.04。在本发明 中,可将分词在待处理书籍中的自由度参数定义为左邻字信息熵值和右邻字 信息熵值中的较小值,那么分词“葡萄”在待处理书籍中的自由度参数为 0.693。

步骤S203,将凝固度参数符合预设凝固度阈值且自由度参数符合预设自 由度阈值的分词确定为第一词语,并将第一词语添加至第一词语集合中。

具体地,预设成词规则可为凝固度参数符合预设凝固度阈值且自由度参 数符合预设自由度阈值,其中,本领域技术人员可根据实际情况设置预设凝 固度阈值和预设自由度阈值,此处不做限定。在步骤S203中,将凝固度参 数符合预设凝固度阈值且自由度参数符合预设自由度阈值的分词确定为第一 词语,即将符合预设成词规则的分词确定为第一词语,然后将第一词语添加 至第一词语集合中。

步骤S204,在第一词语集合中查找与姓氏特征匹配的词语。

在得到了第一词语集合之后,在第一词语集合中查找与姓氏特征匹配的 词语。在中文中,主人公姓名大多为2-4个汉字,其中,第一个汉字或者前 两个汉字可能为姓氏,那么可在第一词语集合中查找词语中的第一个汉字或 者前两个汉字是否与姓氏特征匹配。

步骤S205,将查找到的与姓氏特征匹配的词语确定为第二词语,并将第 二词语添加至第二词语集合中。

其中,第二词语集合是由在第一词语集合中查找到的与姓氏特征匹配的 词语组成的,因此,第二词语集合的集合大小远远小于第一词语集合的集合 大小,极大地缩小了数据处理量,有助于快速地确定出待处理书籍中的主人 公姓名。

步骤S206,在第二词语集合中选择一未曾被选择过的第二词语,统计在 书籍库中出现第二词语的书籍的书籍数量。

在得到了第二词语集合之后,为了能够有效地提取出主人公姓名,还需 要针对第二词语集合中的每一个第二词语,统计在书籍库中出现第二词语的 书籍的书籍数量。其中,书籍库中包括多个书籍。具体地,在步骤S206中, 在第二词语集合中选择一未曾被选择过的第二词语,统计在书籍库中出现第 二词语的书籍的书籍数量。假设对于某个第二词语,在书籍库中有5个书籍 出现了该第二词语,那么该第二词语对应的书籍数量为5。

步骤S207,判断第二词语对应的书籍数量是否超过数量阈值;若是,则 执行步骤S210;若否,则执行步骤S208。

其中,主人公姓名还具有区别性,也就是说,不可能许多个书籍的主人 公姓名都相同。因此,如果判断得到第二词语对应的书籍数量超过数量阈值, 说明该第二词语不为待处理书籍中的主人公姓名,则执行步骤S210;如果判 断得到第二词语对应的书籍数量未超过数量阈值,说明该第二词语可能为待 处理书籍中的主人公姓名,则执行步骤S208。本领域技术人员可根据实际需 要设置数量阈值,此处不做限定。

步骤S208,分析第二词语在待处理书籍中的词频、首次出现位置信息和 出现章节分布信息是否符合预设分布要求;若是,则执行步骤S209;若否, 则执行步骤S210。

在经步骤S207判断得到书籍数量未超过数量阈值的情况下,计算第二词 语在待处理书籍中的词频,并确定第二词语在待处理书籍中首次出现位置信 息和出现章节分布信息,分析第二词语在待处理书籍中的词频、首次出现位 置信息和出现章节分布信息是否符合预设分布要求。具体地,预设分布要求 可为词频超过预设词频阈值,首次出现在书籍的第一章节且出现在书籍的每 个章节中。如果分析得到第二词语在待处理书籍中的词频、首次出现位置信 息和出现章节分布信息符合预设分布要求,则执行步骤S209;如果分析得到 第二词语在待处理书籍中的词频、首次出现位置信息和出现章节分布信息不 符合预设分布要求,则执行步骤S210。

步骤S209,将第二词语确定为待处理书籍中的主人公姓名。

在第二词语在待处理书籍中的词频、首次出现位置信息和出现章节分布 信息符合预设分布要求的情况下,将第二词语确定为待处理书籍中的主人公 姓名。

步骤S210,将第二词语确定为待处理书籍中的非主人公姓名。

在经步骤S207判断得到第二词语对应的书籍数量超过数量阈值的情况 下,将第二词语确定为待处理书籍中的非主人公姓名;另外,在经步骤S208 分析得到第二词语在待处理书籍中的词频、首次出现位置信息和出现章节分 布信息不符合预设分布要求的情况下,也将第二词语确定为待处理书籍中的 非主人公姓名。

步骤S211,判断第二词语集合中的第二词语是否都被选择过;若是,则 该方法结束;若否,则执行步骤S206。

如果判断得到第二词语集合中的第二词语都被选择过,说明对于第二词 语集合中的每一个第二词语都完成了是否为主人公姓名的分析,则该方法结 束;如果判断得到第二词语集合中的第二词语未都被选择过,则执行步骤 S206。

利用本实施例提供的书籍主人公姓名的提取方法,能够更加全面地切分 得到书籍中可能为主人公姓名的分词,具有较好的覆盖率,并根据凝固度参 数和自由度参数准确地确定分词是否成词,得到由能够成词的分词组成的词 语集合,有效地缩小了数据处理量;将词语集合与姓氏特征进行匹配并结合 词语的词频等分布信息,能够准确、快速地从书籍中提取出主人公姓名,进 一步缩小了数据处理量,有效地提高了主人公姓名提取效率,优化了主人公 姓名提取方式。

实施例三

本发明实施例三提供了一种非易失性存储介质,存储介质存储有至少一 可执行指令,该可执行指令可执行上述任意方法实施例中的书籍主人公姓名 的提取方法。

可执行指令具体可以用于使得处理器执行以下操作:对待处理书籍中的 文本内容进行分词处理,得到包含有多个第一词语的第一词语集合;在第一 词语集合中查找与姓氏特征匹配的词语,得到包含有多个第二词语的第二词 语集合;根据多个第二词语的分布信息,从第二词语集合中确定待处理书籍 中的主人公姓名。

在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作: 利用预设分词算法,对待处理书籍中的文本内容进行切分处理,得到多个分 词;针对每一个分词,计算分词在待处理书籍中的凝固度参数和自由度参数; 将凝固度参数符合预设凝固度阈值且自由度参数符合预设自由度阈值的分词 确定为第一词语,并将第一词语添加至第一词语集合中。

在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作: 对分词进行分割,得到多个分词元素;根据待处理书籍中的文本内容的总字 数和分词在待处理书籍中的总出现次数,计算分词在待处理书籍中的出现概 率;针对每一个分词元素,根据待处理书籍中的文本内容的总字数和分词元 素在待处理书籍中的总出现次数,计算分词元素在待处理书籍中的出现概率; 依据分词在待处理书籍中的出现概率和多个分词元素在待处理书籍中的出现 概率,计算得到分词在待处理书籍中的凝固度参数。

在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作: 在待处理书籍中查找分词的左邻字和右邻字,得到包含有左邻字的左邻字集 合和包含有右邻字的右邻字集合;利用左邻字集合计算分词的左邻字信息熵 值;利用右邻字集合计算分词的右邻字信息熵值;根据计算得到的左邻字信 息熵值和右邻字信息熵值,计算得到分词在待处理书籍中的自由度参数。

在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作: 针对第二词语集合中的每一个第二词语,统计在书籍库中出现第二词语的书 籍的书籍数量;判断书籍数量是否超过数量阈值;若判断得到书籍数量未超 过数量阈值,则分析第二词语在待处理书籍中的词频、首次出现位置信息和 出现章节分布信息是否符合预设分布要求;若符合预设分布要求,则将第二 词语确定为待处理书籍中的主人公姓名。

在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作: 在第一词语集合中查找与姓氏特征匹配的词语;将查找到的与姓氏特征匹配 的词语确定为第二词语,并将第二词语添加至第二词语集合中。

在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作: 对样本姓氏数据进行分析,得到姓氏特征。

实施例四

图3示出了根据本发明实施例四的一种电子设备的结构示意图,本发明 具体实施例并不对电子设备的具体实现做限定。

如图3所示,该电子设备可以包括:处理器(processor)302、通信接口 (Communications Interface)304、存储器(memory)306、以及通信总线308。

其中:

处理器302、通信接口304、以及存储器306通过通信总线308完成相互 间的通信。

通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。

处理器302,用于执行程序310,具体可以执行上述书籍主人公姓名的提 取方法实施例中的相关步骤。

具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。

处理器302可能是中央处理器CPU,或者是特定集成电路ASIC (Application Specific Integrated Circuit),或者是被配置成实施本发明实施例 的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类 型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多 个CPU以及一个或多个ASIC。

存储器306,用于存放程序310。存储器306可能包含高速RAM存储器, 也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存 储器。

程序310具体可以用于使得处理器302执行以下操作:对待处理书籍中 的文本内容进行分词处理,得到包含有多个第一词语的第一词语集合;在第 一词语集合中查找与姓氏特征匹配的词语,得到包含有多个第二词语的第二 词语集合;根据多个第二词语的分布信息,从第二词语集合中确定待处理书 籍中的主人公姓名。

在一种可选的实施方式中,程序310进一步使得处理器302执行以下操 作:利用预设分词算法,对待处理书籍中的文本内容进行切分处理,得到多 个分词;针对每一个分词,计算分词在待处理书籍中的凝固度参数和自由度 参数;将凝固度参数符合预设凝固度阈值且自由度参数符合预设自由度阈值 的分词确定为第一词语,并将第一词语添加至第一词语集合中。

在一种可选的实施方式中,程序310进一步使得处理器302执行以下操 作:对分词进行分割,得到多个分词元素;根据待处理书籍中的文本内容的 总字数和分词在待处理书籍中的总出现次数,计算分词在待处理书籍中的出 现概率;针对每一个分词元素,根据待处理书籍中的文本内容的总字数和分 词元素在待处理书籍中的总出现次数,计算分词元素在待处理书籍中的出现 概率;依据分词在待处理书籍中的出现概率和多个分词元素在待处理书籍中 的出现概率,计算得到分词在待处理书籍中的凝固度参数。

在一种可选的实施方式中,程序310进一步使得处理器302执行以下操 作:在待处理书籍中查找分词的左邻字和右邻字,得到包含有左邻字的左邻 字集合和包含有右邻字的右邻字集合;利用左邻字集合计算分词的左邻字信 息熵值;利用右邻字集合计算分词的右邻字信息熵值;根据计算得到的左邻 字信息熵值和右邻字信息熵值,计算得到分词在待处理书籍中的自由度参数。

在一种可选的实施方式中,程序310进一步使得处理器302执行以下操 作:针对第二词语集合中的每一个第二词语,统计在书籍库中出现第二词语 的书籍的书籍数量;判断书籍数量是否超过数量阈值;若判断得到书籍数量 未超过数量阈值,则分析第二词语在待处理书籍中的词频、首次出现位置信 息和出现章节分布信息是否符合预设分布要求;若符合预设分布要求,则将 第二词语确定为待处理书籍中的主人公姓名。

在一种可选的实施方式中,程序310进一步使得处理器302执行以下操 作:在第一词语集合中查找与姓氏特征匹配的词语;将查找到的与姓氏特征 匹配的词语确定为第二词语,并将第二词语添加至第二词语集合中。

在一种可选的实施方式中,程序310进一步使得处理器302执行以下操 作:对样本姓氏数据进行分析,得到姓氏特征。

程序310中各步骤的具体实现可以参见上述书籍主人公姓名的提取实施 例中的相应步骤对应的描述,在此不赘述。所属领域的技术人员可以清楚地 了解到,为描述的方便和简洁,上述描述的设备的具体工作过程,可以参考 前述方法实施例中的对应过程描述,在此不再赘述。

通过本实施例提供的方案,将分词处理得到的词语集合与姓氏特征进行 匹配并结合词语的分布信息,能够准确、快速地从书籍中提取出主人公姓名, 极大地缩小了数据处理量,有效地提高了主人公姓名提取效率。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固 有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描 述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何 特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的 内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本 发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未 详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个 或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时 被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开 的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求 中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映 的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循 具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利 要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自 适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以 把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可 以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或 者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括 伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法 或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括 伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或 相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其 它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组 合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权 利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使 用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制, 并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实 施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要 求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于 元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以 借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。单 词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名 称。

本发明公开了:A1.一种书籍主人公姓名的提取方法,包括:

对待处理书籍中的文本内容进行分词处理,得到包含有多个第一词语的 第一词语集合;

在所述第一词语集合中查找与姓氏特征匹配的词语,得到包含有多个第 二词语的第二词语集合;

根据所述多个第二词语的分布信息,从所述第二词语集合中确定所述待 处理书籍中的主人公姓名。

A2.根据A1所述的方法,所述对待处理书籍中的文本内容进行分词处 理,得到包含有多个第一词语的第一词语集合进一步包括:

利用预设分词算法,对待处理书籍中的文本内容进行切分处理,得到多 个分词;

针对每一个分词,计算所述分词在所述待处理书籍中的凝固度参数和自 由度参数;

将所述凝固度参数符合预设凝固度阈值且所述自由度参数符合预设自由 度阈值的分词确定为第一词语,并将所述第一词语添加至所述第一词语集合 中。

A3.根据A2所述的方法,计算所述分词在所述待处理书籍中的凝固度 参数进一步包括:

对所述分词进行分割,得到多个分词元素;

根据所述待处理书籍中的文本内容的总字数和所述分词在所述待处理书 籍中的总出现次数,计算所述分词在所述待处理书籍中的出现概率;

针对每一个分词元素,根据所述待处理书籍中的文本内容的总字数和所 述分词元素在所述待处理书籍中的总出现次数,计算所述分词元素在所述待 处理书籍中的出现概率;

依据所述分词在所述待处理书籍中的出现概率和多个分词元素在所述待 处理书籍中的出现概率,计算得到所述分词在所述待处理书籍中的凝固度参 数。

A4.根据A2所述的方法,计算所述分词在所述待处理书籍中的自由度 参数进一步包括:

在所述待处理书籍中查找所述分词的左邻字和右邻字,得到包含有左邻 字的左邻字集合和包含有右邻字的右邻字集合;

利用所述左邻字集合计算所述分词的左邻字信息熵值;

利用所述右邻字集合计算所述分词的右邻字信息熵值;

根据计算得到的左邻字信息熵值和右邻字信息熵值,计算得到所述分词 在所述待处理书籍中的自由度参数。

A5.根据A1-A4任一项所述的方法,所述根据所述多个第二词语的分布 信息,从所述第二词语集合中确定所述待处理书籍中的主人公姓名进一步包 括:

针对所述第二词语集合中的每一个第二词语,统计在书籍库中出现所述 第二词语的书籍的书籍数量;

判断所述书籍数量是否超过数量阈值;

若判断得到所述书籍数量未超过数量阈值,则分析所述第二词语在所述 待处理书籍中的词频、首次出现位置信息和出现章节分布信息是否符合预设 分布要求;

若符合所述预设分布要求,则将所述第二词语确定为所述待处理书籍中 的主人公姓名。

A6.根据A1-A5任一项所述的方法,所述在所述第一词语集合中查找与 姓氏特征匹配的词语,得到包含有多个第二词语的第二词语集合进一步包括:

在所述第一词语集合中查找与姓氏特征匹配的词语;

将查找到的与姓氏特征匹配的词语确定为第二词语,并将所述第二词语 添加至所述第二词语集合中。

A7.根据A1-A6任一项所述的方法,在所述对待处理书籍中的文本内容 进行分词处理,得到包含有多个第一词语的第一词语集合之前,所述方法还 包括:

对样本姓氏数据进行分析,得到姓氏特征。

本发明还公开了:B8.一种电子设备,包括:处理器、存储器、通信接 口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线 完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器 执行以下操作:

对待处理书籍中的文本内容进行分词处理,得到包含有多个第一词语的 第一词语集合;

在所述第一词语集合中查找与姓氏特征匹配的词语,得到包含有多个第 二词语的第二词语集合;

根据所述多个第二词语的分布信息,从所述第二词语集合中确定所述待 处理书籍中的主人公姓名。

B9.根据B8所述的电子设备,所述可执行指令进一步使所述处理器执行 以下操作:

利用预设分词算法,对待处理书籍中的文本内容进行切分处理,得到多 个分词;

针对每一个分词,计算所述分词在所述待处理书籍中的凝固度参数和自 由度参数;

将所述凝固度参数符合预设凝固度阈值且所述自由度参数符合预设自由 度阈值的分词确定为第一词语,并将所述第一词语添加至所述第一词语集合 中。

B10.根据B9所述的电子设备,所述可执行指令进一步使所述处理器执 行以下操作:

对所述分词进行分割,得到多个分词元素;

根据所述待处理书籍中的文本内容的总字数和所述分词在所述待处理书 籍中的总出现次数,计算所述分词在所述待处理书籍中的出现概率;

针对每一个分词元素,根据所述待处理书籍中的文本内容的总字数和所 述分词元素在所述待处理书籍中的总出现次数,计算所述分词元素在所述待 处理书籍中的出现概率;

依据所述分词在所述待处理书籍中的出现概率和多个分词元素在所述待 处理书籍中的出现概率,计算得到所述分词在所述待处理书籍中的凝固度参 数。

B11.根据B9所述的电子设备,所述可执行指令进一步使所述处理器执 行以下操作:

在所述待处理书籍中查找所述分词的左邻字和右邻字,得到包含有左邻 字的左邻字集合和包含有右邻字的右邻字集合;

利用所述左邻字集合计算所述分词的左邻字信息熵值;

利用所述右邻字集合计算所述分词的右邻字信息熵值;

根据计算得到的左邻字信息熵值和右邻字信息熵值,计算得到所述分词 在所述待处理书籍中的自由度参数。

B12.根据B8-B11任一项所述的电子设备,所述可执行指令进一步使所 述处理器执行以下操作:

针对所述第二词语集合中的每一个第二词语,统计在书籍库中出现所述 第二词语的书籍的书籍数量;

判断所述书籍数量是否超过数量阈值;

若判断得到所述书籍数量未超过数量阈值,则分析所述第二词语在所述 待处理书籍中的词频、首次出现位置信息和出现章节分布信息是否符合预设 分布要求;

若符合所述预设分布要求,则将所述第二词语确定为所述待处理书籍中 的主人公姓名。

B13.根据B8-B12任一项所述的电子设备,所述可执行指令进一步使所 述处理器执行以下操作:

在所述第一词语集合中查找与姓氏特征匹配的词语;

将查找到的与姓氏特征匹配的词语确定为第二词语,并将所述第二词语 添加至所述第二词语集合中。

B14.根据B8-B13任一项所述的电子设备,所述可执行指令进一步使所 述处理器执行以下操作:

对样本姓氏数据进行分析,得到姓氏特征。

本发明还公开了:C15.一种存储介质,所述存储介质中存储有至少一可 执行指令,所述可执行指令使处理器执行以下操作:

对待处理书籍中的文本内容进行分词处理,得到包含有多个第一词语的 第一词语集合;

在所述第一词语集合中查找与姓氏特征匹配的词语,得到包含有多个第 二词语的第二词语集合;

根据所述多个第二词语的分布信息,从所述第二词语集合中确定所述待 处理书籍中的主人公姓名。

C16.根据C15所述的存储介质,所述可执行指令进一步使所述处理器执 行以下操作:

利用预设分词算法,对待处理书籍中的文本内容进行切分处理,得到多 个分词;

针对每一个分词,计算所述分词在所述待处理书籍中的凝固度参数和自 由度参数;

将所述凝固度参数符合预设凝固度阈值且所述自由度参数符合预设自由 度阈值的分词确定为第一词语,并将所述第一词语添加至所述第一词语集合 中。

C17.根据C16所述的存储介质,所述可执行指令进一步使所述处理器执 行以下操作:

对所述分词进行分割,得到多个分词元素;

根据所述待处理书籍中的文本内容的总字数和所述分词在所述待处理书 籍中的总出现次数,计算所述分词在所述待处理书籍中的出现概率;

针对每一个分词元素,根据所述待处理书籍中的文本内容的总字数和所 述分词元素在所述待处理书籍中的总出现次数,计算所述分词元素在所述待 处理书籍中的出现概率;

依据所述分词在所述待处理书籍中的出现概率和多个分词元素在所述待 处理书籍中的出现概率,计算得到所述分词在所述待处理书籍中的凝固度参 数。

C18.根据C16所述的存储介质,所述可执行指令进一步使所述处理器执 行以下操作:

在所述待处理书籍中查找所述分词的左邻字和右邻字,得到包含有左邻 字的左邻字集合和包含有右邻字的右邻字集合;

利用所述左邻字集合计算所述分词的左邻字信息熵值;

利用所述右邻字集合计算所述分词的右邻字信息熵值;

根据计算得到的左邻字信息熵值和右邻字信息熵值,计算得到所述分词 在所述待处理书籍中的自由度参数。

C19.根据C15-C18任一项所述的存储介质,所述可执行指令进一步使所 述处理器执行以下操作:

针对所述第二词语集合中的每一个第二词语,统计在书籍库中出现所述 第二词语的书籍的书籍数量;

判断所述书籍数量是否超过数量阈值;

若判断得到所述书籍数量未超过数量阈值,则分析所述第二词语在所述 待处理书籍中的词频、首次出现位置信息和出现章节分布信息是否符合预设 分布要求;

若符合所述预设分布要求,则将所述第二词语确定为所述待处理书籍中 的主人公姓名。

C20.根据C15-C19任一项所述的存储介质,所述可执行指令进一步使所 述处理器执行以下操作:

在所述第一词语集合中查找与姓氏特征匹配的词语;

将查找到的与姓氏特征匹配的词语确定为第二词语,并将所述第二词语 添加至所述第二词语集合中。

C21.根据C15-C20任一项所述的存储介质,所述可执行指令进一步使所 述处理器执行以下操作:

对样本姓氏数据进行分析,得到姓氏特征。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号