首页> 中国专利> 用于从对话中提取闲谈部分的闲谈提取系统、方法和程序

用于从对话中提取闲谈部分的闲谈提取系统、方法和程序

摘要

本发明提供一种从对话中提取闲谈部分的闲谈提取系统、方法以及程序。该从对话中提取闲谈部分的闲谈提取系统,包含:第一语料库,其包含多个领域的文档;第二语料库,其仅包含对话所属的领域的文档,决定部,其针对第二语料库所包含的各单词,将第一语料库的idf值和第二语料库的idf值分别处于第一规定阈值以下的单词决定为下限对象词;评分计算部,其针对第二语料库所包含的各单词计算tf-idf值作为评分,并且针对下限对象单词使用作为下限的常数来代替tf-idf值;分离部,其从作为对话内容的文本数据中一边偏移规定长度的窗口,一边依次分离处理对象的区间;以及提取部,其提取已分离的区间所包含的单词的评分的平均值大于第二规定阈值的区间作为闲谈部分。

著录项

  • 公开/公告号CN103207886A

    专利类型发明专利

  • 公开/公告日2013-07-17

    原文格式PDF

  • 申请/专利权人 国际商业机器公司;

    申请/专利号CN201310011555.1

  • 发明设计人 伊东伸泰;西村雅史;山口祐人;

    申请日2013-01-11

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构11256 北京市金杜律师事务所;

  • 代理人陈伟

  • 地址 美国纽约阿芒克

  • 入库时间 2024-02-19 19:02:27

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-05-25

    授权

    授权

  • 2013-08-14

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130111

    实质审查的生效

  • 2013-07-17

    公开

    公开

说明书

技术领域

本发明涉及用于从对话中提取闲谈部分的技术,更详细而言,涉 及改良或应用由tf-idf(term frequency-inverse document frequency:词 频-逆向文档频率)代表的特征词检测技术,提取较难作为特定的主 题来定义·分类的闲谈部分的闲谈提取系统、方法以及程序。

背景技术

在业务分析中,分析客服中心、营业厅的营业担当者与顾客的电 话对话的需求日渐提高。尤其是对闲谈、闲聊这样的与业务、事务无 关的部分的分析,而不是某种商品的说明、提问这样的普通的对话部 分的分析,引人关注。这是由于考虑到只有这样的闲谈部分才包含顾 客的兴趣、家人构成、职业等在业务上可利用的有用信息。因此,重 要的是从对话数据提取闲谈部分,并据此制作顾客的资料(profiling) 并进行分类,用于下一次营业活动。

此外,存在很多从对话数据、文档数据检测出主题并分类,把包 含各种主题的数据按主题进行分段的研究。例如非专利文献1公开了 潜在狄利克雷分配法。在这里,潜在狄利克雷分配法是能表现在一个 文档中包含多个主题的文档生成过程的概率模型,并且是把文档认为 是单词的集合,以单词为单位分割主题的方法。

另外,非专利文献2和专利文献1公开了用于检测伴随时间经过的 主题的变化的方法。为此,在非专利文献2中,公开了导入复合主题 模型(compound topic model:CTM);另外,专利文献1公开了使用 混合分布模型来表现主题的生成模型,并一边激烈地忘掉过去的数据 时间,一边在线学习主题的生成模型。

另外,非专利文献3公开了实时取得利用团体(community)表现 的新出现主题的主题检测技术。在该主题检测技术中,按照考虑了源 的影响力的老化理论把单词(term)的生命周期模型化。

另外,存在专利文献2,作为推定以对话内容为对象的话题的现 有技术。专利文献2公开了这样的技术,基于每个话题的单词特征量, 把对话文本中多个单词出现的比例较高的话题推定为对话文本的话 题,其中,单词特征量是表示特定话题中更多使用哪个名词的尺度。

上述非专利文献1~3和专利文献1这些现有技术的前提在于把主 题模型化,或至少数据的部分(单词)由一个以上特定主题构成,并 根据某些潜在模型产生该部分(单词)。因此,不言而喻,把闲谈直 接模型化是困难的,定义并分类闲谈作为特定主题本身是困难的,因 此为了检测闲谈,不能利用上述现有技术。另外,由于该闲谈的性质, 也较难利用需要文本原稿和确定了该文本原稿的内容的话题这样的 学习数据的专利文献2的技术。

此外,在专利文献3这一现有技术的说明中,作为从文档提取重 要词句的技术,介绍了tf-idf模型。根据该说明,在tf-idf模型中,在多 个文档中出现的用语重要度较低、相反地,越是出现文档数量少的用 语重要度越高这样的思想下,在包含作为对象的文档的语料库之中, 按各用语求出包含该用语的文档数,并把其倒数作为语料库内的用语 重要度,并把语料库内的用语重要度与作为文档内重要度的tf之积 tf-idf作为用语重要度。因此,可考虑在提取闲谈部分中利用tf-idf模型。 即,由于闲谈部分可以说是与作为普通对话的业务、事务无关系的部 分,期待idf值变高,且可以考虑把tf-idf值作为其提取的指标。此外, idf的一般性定义为:在包含作为对象的文档的语料库中,包含成为对 象的用语的文档所占比例的倒数的对数。

在先技术文献:

专利文献

专利文献1:日本特开2005-352613号公报

专利文献2:日本特开2003-323424号公报

专利文献3日本特开2003-50807号公报

非专利文献

非专利文献1:Blei,D.M.,Ng,A.Y.,和Jordan,M.L, ″Latent Dirichlet Allocation″,Journal of Machine Learning Research, Vol.3,pp.993-1022,2003.

非专利文献2:Knights D.,Mozer,M.C.,和Nicolov N.,″Topic Drift with Compound Topic Models″,AAAI,242-245,2009.

非专利文献3:Cataldi,M.等,″Emerging Topic Detection on Twitter based on Temporal and Social Terms Evaluation″,MDMKDD′10,2010.

发明内容

然而,已知的是,可比较高速地处理tf-idf值,另一方面,单词的 特异性提取,特别是低频率单词的特异性提取较不稳定。在利用对话 的一定区间内的单词的tf-idf的平均值作为闲谈提取指标的情况下,由 于累积效果,精度进一步恶化。因此,可以考虑通过利用包含多种主 题的、并因此尺寸较大的一般性语料库来代替对象领域的语料库,求 出正确的tf-idf值。但是,一般性语料库的利用与判断是否为对象领域 特有的主题、或者是否为闲谈这样的目的不相称。例如,对象领域为 金融的情况下,“指定价格”这样的用语并不是特别少见的单词,但 对一般人来说是特异的单词,所以应该为较小值的idf值变大,不恰当 地加上了较大的权重。

另外,也可以考虑利用铺垫(flooring)技术来解决上述精度的问 题。即,能通过在对象领域的语料库中把一定程度小的idf值设成极端 低的权重来改善精度。但在这里,对于闲谈检测这样的目的,也不能 得到预想的效果。原因在于,在简单的铺垫技术的应用中,由于不能 识别在对象领域的语料库中以一定程度高频率出现、但是也兼备作为 闲谈的特征的单词,对该单词也加上了极端低的权重。

并且,在以往的tf-idf模型中,虽然利用文档内的出现频率(tf) 求出文档内的重要度,但在闲谈检测这样的目的中,单词的出现频率 并不一定表示重要度。

本发明是鉴于上述现有技术的问题点而做出的,本发明的目的在 于,改良或应用由tf-idf代表的特征词检测技术,导出用于提取闲谈部 分的新指标,并基于该指标的闲谈部分的提取技术。另外,本发明的 目的在于,提供一种能利用不花费计算成本的指标,实现高精度地实 施闲谈部分的检测,而无需学习数据的闲谈提取系统、方法、以及程 序。

为了解决上述现有技术的问题,本发明提供一种具有以下特征的 闲谈提取系统。本发明的闲谈提取系统包含:第一语料库,其包含多 个领域的文档;第二语料库,其仅包含上述对话所属的领域的文档, 决定部,其针对上述第二语料库所包含的各单词,将第一语料库的idf 值和第二语料库的idf值分别在第一规定阈值以下的单词决定为下限 对象词;评分计算部,其针对上述第二语料库所包含的各单词计算 tf-idf值作为评分,针对上述下限对象单词使用作为下限的常数来代替 tf-idf值;分离部,其从作为上述对话内容的文本数据中一边偏移规定 长度的窗口,一边依次分离处理对象的区间;以及提取部,其提取已 分离的上述区间所包含的单词的上述评分的平均值大于第二规定阈 值的区间作为闲谈部分。

优选的是,上述对话是顾客与营业担当者间的对话,上述第二语 料库由顾客的说话部分的集合即顾客用语料库、以及营业担当者的说 话部分的集合即担当者用语料库构成,上述评分计算部,代替各单词 w的TF值,使用上述单词w的上述顾客用语料库的出现频率CF(w) 相对于该单词w的上述担当者用语料库的出现频率SF(w)的比例。

更优选的是,利用公式(CF(w)+1)/(CF(w)+SF(w))求出上述比例。

另外,优选的是,上述决定部还针对上述第二语料库所包含的各 单词,决定第一语料库的idf值和第二语料库的idf值分别在第三规定阈 值以上的单词作为上限对象词,上述评分计算部对上述上限对象单词 使用作为上限的常数代替tf-idf值。

另外,也可以是,上述决定部针对上述第二语料库所包含的各单 词,决定第一语料库的相互信息量的值和第二语料库的相互信息量的 值分别在第四规定阈值以下的单词作为下限对象词,上述评分计算部 利用相互信息量代替idf值,并针对上述下限对象单词使用作为下限的 常数代替相互信息量。

或者,也可以是,上述决定部针对上述第二语料库所包含的各单 词,决定第一语料库的卡方值和第二语料库的卡方值分别在第五规定 阈值以下的单词作为下限对象词,上述评分计算部利用卡方值代替idf 值,并针对上述下限对象单词使用作为下限的常数代替卡方值。

以上,以闲谈提取系统说明了本发明。但是,本发明也能够作为 利用这样的闲谈提取系统,从实施的对话中提取闲谈部分的闲谈提取 方法、以及使信息处理装置执行这样的方法的闲谈提取程序来把握。

根据本发明,以不花费计算成本的tf-idf作为闲谈检测的指标的基 础,并且准备包含多个领域的文档的一般性语料库、和仅包含分析对 象的对话所属领域的文档的对象领域的语料库这两个语料库,并仅在 两个语料库的idf值变低的情况下实施铺垫,所以可高精度地实施闲谈 部分的检测。并且,相比营业担当者的说话部分,在顾客的说话部分 中出现作为闲谈部分可被识别的单词的频率较高这样的考虑之下,如 果利用其出现频率比来代替出现频率(tf),则可更高精度地实施闲谈 部分的检测。根据各实施方式的记载可了解本发明的其他效果。

附图说明

图1示出适于实现本申请发明的实施方式的闲谈提取系统200的 信息处理装置的硬件构成的一例。

图2是本发明实施方式的闲谈提取系统200的功能框图。

图3是示出本发明实施方式的区间分离处理的概念图。

图4是示出计算每个单词的特征量rf-idf的计算处理流程的流程 图。

图5是示出本发明实施方式的闲谈部分的检测处理流程的流程 图。

图6是示出应用了本发明的闲谈检测的实验结果的图。

具体实施方式

以下,基于附图详细说明用于实施本申请发明的实施方式,以下 的实施方式并不限定权利要求书的发明,另外,在发明的解决手段中, 实施方式中说明的特征的组合并不一定全部都是必需的。此外,在实 施方式说明中相同要素始终附带相同的附图标记。

图1是示出了适于实施本发明的计算机50的硬件构成的一例的 图。计算机50包含与总线2连接的主CPU(中央处理装置)1和主存储 器4。优选的是,CPU1是基于32位或64位架构的处理器,例如可使用 英特尔公司的Core i(商标)系列、Core 2(商标)系列、Atom(商 标)系列、Xeon(商标)系列、Pentium(注册商标)系列、Celeron (注册商标)系列、AMD公司的Phenom(商标)系列、Athlon(商 标)系列、Turion(商标)系列或Sempron(商标)。

另外,硬盘装置13、30以及CD-ROM(Compact Disc Read Only Memory:光盘只读存储器)装置26、29、软盘装置20、MO(Magnet Optical:光磁盘)装置28、DVD(Digital Versatile Disk:数字多功能 光盘)装置31这样的可移除存储器(可更换记录介质的外部存储系统) 经由软盘控制器19、IDE(Integrated Drive Electronics:电子集成驱动 器)控制器25、SCSI(Small Computer System Interface:小型计算机 系统接口)控制器27等连接到总线2。软盘、MO、CD-ROM、DVD-ROM 这样的存储介质插入到可移除存储器中。

在这些存储介质或硬盘装置13、30、ROM14中能记录与操作系统 协作提供命令给CPU1、并用于实施本发明的计算机程序的代码。即, 在上面说明的各种存储装置中,能记录安装到计算机50中并使计算机 50作为本发明实施方式的后述闲谈提取系统200起作用的闲谈提取程 序、以及后述的一般性语料库、对象领域的语料库等数据。

上述闲谈提取程序包含决定模块、评分计算模块、分离模块、以 及提取模块。这些模块推动CPU1工作,使计算机50分别作为分别后 述的决定部225、评分计算部230、分离部245、以及提取部250起作用。 计算机程序也能压缩并分成多个,记录在多个介质中。

计算机50经由键盘/鼠标控制器5,接收来自键盘6、鼠标7这样的 输入装置的输入。计算机50经由音频控制器21,接收来自麦克风24的 输入,并输出来自扬声器23的声音。计算机50经由图形控制器8与用 于向用户显示视觉数据的显示装置11连接。计算机50可经由网络适配 器18(以太网(注册商标)卡或令牌环卡)等与网络连接,并与其他 计算机等进行通信。

通过以上的说明,容易理解的是,计算机50由通常的个人电脑、 工作站、大型机等信息处理装置或它们的组合实现。此外,上面说明 的构成要素为例示,并不是所有构成要素都是本发明的必要构成要 素。

图2是本发明实施方式的从对话中提取闲谈部分的闲谈提取系统 200的功能框图。在该图中,闲谈提取系统200包括第一语料库存储部 205、第二语料库存储部210、决定部225、评分计算部230、统计词典 存储部235、对话数据存储部240、分离部245、以及提取部250。

第一语料库存储部205存储包含多个领域的文档的一般性语料 库。如上所述,若仅利用分析对象即对话所属的对象领域的语料库进 行铺垫,那么就连在对象领域的语料库中以一定程度高频率出现但也 兼备作为闲谈的特征的单词也加上了极端低的权重。例如,虽然PC 关联用语、“喜欢”等评价用语在金融等业务、事务中以高频率出现 并在对象领域的语料库中示出低idf值,但对于识别闲谈区间来说是有 用的。另一方面,在包含多个领域的文档的、并因此与对象领域的语 料库相比具有充分的文档数的一般性语料库中,虽然高频率地出现上 述用语,但并不一定示出低idf值。因此,在本申请的发明中,准备一 般性语料库,把具有这样特征的用语从铺垫对象排除。该方法的详细 内容将与后述的决定部225和评分计算部230关联起来说明。

作为包含多个领域的文档的一般性语料库,优选的是具有充分尺 寸并包含多种主题的语料库,例如可利用维基百科(wikipedia)、twitter (推特)等互联网上的信息。此外,利用维基百科的情况下,一个用 语的条目页相当于求idf时的“一个文档”。另外,利用twitter的情况下, 一条信息相当于求idf时的“一个文档”。

第二语料库存储部210存储对象领域的语料库,其仅包含分析对 象的对话所属领域文档。对象领域的语料库可以是利用声音识别或人 工把客服中心或营业厅的顾客与营业担当者的对话转换成文本的语 料库。而且,第二语料库存储部210以对话为单位,且按每个说话者 分开存储对话数据。即,第二语料库存储部210由第一说话者(顾客) 的说话部分的集合即顾客用语料库215、和第二说话者(担当者)的 说话部分的集合即担当者用语料库220构成。另外,各语料库215、220 以对话为单位而不作为单一的数据来保持各自的说话部分的集合。

此外,包含顾客用语料库215和担当者用语料库220这两方的对象 领域的语料库中的“一个文档”的意思是由顾客的一连串说话部分和 对应的营业担当者的一连串说话部分构成的一个对话。另一方面,顾 客用语料库215或担当者用语料库220中的每一个的“一个文档”的意 思是仅由顾客的一连串说话部分或营业担当者的一连串说话部分构 成的一个对话。

此外,存储在第一语料库存储部205和第二语料库存储部210中的 语料库都指由单词列构成的文本数据。由于在日语等一些语言中单词 之间没有空格等表示边界的标志,利用词素分析等程序预先分割成单 词。而且,声音识别的情况下一般以单词为单位输出结果,所以没有 必要提取进行这样的单词提取。另外,虽然语料库也可被赋予词类、 修饰关系、以及领域(主题)这样的附加信息,但在这里不需要这样 的附加信息。

决定部225针对存储在第二语料库存储部210中的对象领域的语 料库所包含的各单词w,决定存储在第一语料库存储部205中的一般性 语料库的idf值IDFg(w)、存储在第二语料库存储部210中的对象领域 的语料库的idf值IDFt(w)均为规定阈值θ1以下的单词作为铺垫的下 限对象词Vshared。如上所述,在对象领域的语料库中以一定程度高频 率出现并也兼备作为闲谈的特征的单词在一般性语料库中不一定示 出低idf值。因此,在本申请的发明中,不仅是对象领域的语料库,在 一般性语料库中,也把idf值在规定阈值以下作为设定铺垫的下限对象 词Vshared的条件。由此,回避了过度的铺垫。

此外,利用下列公式求出各语料库的idf值。

[公式1]

IDF(w)=log(|D|DF(w))

在上面的公式中,D表示在各语料库中包含的文档数,DF(w) 表示在各语料库内的文档中包含单词w的文档数。

评分计算部230针对存储在第二语料库存储部210中的对象领域 的语料库所包含的各单词w,计算tf-idf值作为评分score(w)。但针对 由决定部225决定作为下限对象词Vshared的单词,评分计算部230使用 作为下限的常数μ来代替tf-idf值。用公式表示针对单词w的评分score (w)如下。

[公式2]

score(w)=μ(wVshared)log(|D|DF(w))×CF(w)(otherwise)

在上面的公式中,D表示在对象领域的语料库中包含的文档数, DF(w)表示在对象领域的语料库内的文档中包含单词w的文档数, CF(w)表示顾客用语料库215内的单词w的单词频率。

更优选的是,评分计算部230使用顾客用语料库215的出现频率CF (w)相对于担当者用语料库220的出现频率SF(w)的比例,即出现 频率比RF(w)来代替上面的公式中的tf值(CF(w)),计算新的特 征量rf-idf。这基于如下考虑:相比营业担当者的说话部分,在顾客的 说话部分中出现作为闲谈部分可被识别的单词的频率较高。该情况 下,利用下列公式表示针对单词w的评分score(w)。

[公式3]

score(w)=μ(wVshared)log(|D|DF(w))×RF(w)(otherwise)

在上面的公式中,作为一个例子,可利用下列公式求出出现频率 比RF(w)。

[公式4]

RF(w)=CF(w)+1SF(w)+CF(w)

此外,当出现频率比RF(w)的值变小的单词间的评分score(w) 之差变重要的情况下,也可把上面的公式的左边的值的对数作为出现 频率比RF(w)。评分计算部230把算出的每个单词的评分score(w) 存储到统计词典存储部235中。

对话数据存储部240以单词为单位划分并存储作为分析对象的对 话内容的文本数据。一般来说,声音识别结果以单词为单位划分,所 以利用声音识别取得文本数据的情况下没有必要提取单词。另一方 面,利用记录取得文本数据的情况下,利用词素分析从文本数据提取 单词。词素分析技术是已知的,由于也存在市场上出售的程序,在这 里省略说明。

分离部245从对话数据存储部240读出文本数据,一边偏移规定长 度的窗口,一边依次分离处理对象的区间。在图3中示出表示区间分 离处理的概念图。在图3中,一个个“-”表示说话的单词,上层302 表示顾客的一连串说话,下层304表示对应的营业担当者的一连串说 话。如图3所示,通过逐个单词地偏移规定长度L(在图3中示出的例 子中L=12个单词)的窗口,依次分离处理对象的区间(若假设矩形306 为第i个区间,则利用把矩形306偏移了一个单词的矩形308分离第i+1 个区间)。

此外,要以准确的位置检测出闲谈区间的话,处理对象的区间短 一些较好。但是,在另一方面,若闲谈区间过短,则这一次闲谈的判 定结果被偶然地影响的可能性变高。因此,优选的是,窗口的规定长 度L为平均说话长度的数倍~10倍左右。

提取部250参照存储在统计词典存储部235中的每个单词的评分 score(w),计算出由分离部245分离的区间所包含单词的评分score(w) 的平均值,提取计算出的平均值大于规定阈值θ2的区间作为闲谈部 分。提取部250的判定公式如下。

[公式5]

1|Si|ΣwSiscore(w)θ2

在上面的公式中,Si表示分离出的区间所包含的单词列,|Si|表示 该单词列所包含的单词数。

此外,使用附带了作为正确的解释信息的“闲谈”标签的少量开 发用数据,分别预先设定铺垫的下限对象词Vshared时使用的规定阈值 θ1、下限对象词Vshared的评分Score(w)值μ、以及使用于闲谈判定 的规定阈值θ2,从而针对该数据,上述的闲谈检测方法的检测结果 精度最好。

在这里,作为表示检测结果精度的指标,存在precision、recall、 f-measure(F值)这三种。recall是评价检测失败的指标,precision是 评价过剩检测的指标,这两个指标为若提高一方则另一方下降的、精 度相反的指标。因此,作为考虑了这两个指标的均衡的指标,通常存 在由下列公式定义的f-measure。

[公式6]

f-measure=2×precision×recall(precision+recall)

然而,过剩检测和检测失败这两方都在容许范围内这样的值并不 一定是f-measure的最适合值的期望值。因此,优选选择与每个应用的 目的相应的精度的指标。例如如果重视检测失败较少,则先设定 recall>90%这样的目标,并在满足该目标的范围内设定precision变得 最好的阈值θ1、θ2、下限对象词Vshared的评分score(w)值μ。

此外,到这里为止,以tf-idf的值为基础说明了本申请发明的闲谈 提取技术。然而,作为闲谈提取的指标的基础,本申请发明的闲谈提 取技术也可利用其他特征词检测技术,即相互信息量、卡方值。相互 信息量、卡方值是表示类别(特定文档)与单词的依存度的尺度,这 些值越大的单词被视为是在类别(特定文档)中特征性的单词。因此, 能把这些值作为idf值的替代来利用。

即,决定部225针对存储在第二语料库存储部210中的对象领域的 语料库所包含的各单词w,决定存储在第一语料库存储部205中的一般 性语料库的相互信息量Ig(U;D)的值、存储在第二语料库存储部210 中的对象领域的语料库的相互信息量It(U;D)的值均为规定阈值以 下的单词作为铺垫的下限对象词Vshared。另外,评分计算部230利用相 互信息量It(U;D)代替idf值,并针对下限对象单词Vshared使用作为 下限的常数。

此外,使用表示某单词t的出现的概率变量U和表示某文档d的出 现的概率变量D,由下列公式定义相互信息量I(U;D)。在这里,U 取1或0这样的值,U=1时表示出现单词t的现象,U=0时表示不出现单 词t的现象。同样地,D也取1或0这样的值,D=1时表示文档为d,D=0 时表示文档不是d这样的现象。

[公式7]

I(U;D)=Σet{1,0}Σed{1,0}P(U=et,D=ed)log2P(U=et,D=ed)P(U=et)P(D=ed)

在上面的公式中,在下标t(term)中代入具体的单词,在下标d (document)中代入具体的文档。

另外,决定部225针对存储在第二语料库存储部210中的对象领域 的语料库所包含的各单词w,决定存储在第一语料库存储部205中的一 般性语料库的卡方值χ2g(t;d)的值、存储在第二语料库存储部210 中的对象领域的语料库的卡方值χ2t(t;d)的值均为规定阈值以下 的单词作为铺垫的下限对象词Vshared。另外,评分计算部230利用卡方 值χ2(t;d)代替idf值,并针对下限对象单词Vshared使用作为下限的 常数。

此外,使用实际的文档数Nij、在假定某单词与某文档为独立的情 况下期待的文档数Eij,利用下列公式定义卡方值χ2(t;d)。在这里, i(=et)取1或0这样的值,取1时表示出现单词t的现象,取0时表示不 出现单词t的现象。同样地,j(=ec)取1或0这样的值,取1时表示文 档为d,取0时表示文档不是d这样的现象。

[公式8]

χ2(t;d)=Σet{1,0}Σed{1,0}(Neted-Eeted)2Eeted

在上面的公式中,在下标t(term)中代入具体的单词,在下标d (document)中代入具体的文档。

即使在利用相互信息量或卡方值的情况下,也使用附带了作为正 确的解释信息的“闲谈”标签的少量开发用数据,预先设定各种阈值 和作为下限的常数,从而针对该数据,上述的闲谈检测方法的检测结 果精度最好。

然后,参照图4和图5,说明本发明实施方式的闲谈部分的检测处 理的流程。图4是示出计算每个单词的特征量rf-idf的计算处理流程的 流程图。图5是示出闲谈部分的检测处理流程的流程图。

在图4中示出的计算处理从步骤400开始,闲谈提取系统200访问 对象领域的语料库210,并针对对象领域的语料库210所包含的各单词 wi求出对象领域的语料库210的idf值IDFt(w)、顾客用语料库215的出 现频率CF(w)、以及担当者用语料库220的出现频率SF(w)。接着, 闲谈提取系统200访问一般语料库205,并针对上述各单词wi求出一般 语料库205的idf值IDFg(w)(步骤405)。此外,在步骤400和步骤405 中,按照公式1计算idf值。

接着,闲谈提取系统200针对上述各单词wi判定在步骤400求出的 IDFt(wi)和在步骤405求出的IDFg(wi)是否均小于规定的阈值θ1(步骤410)。接着,闲谈提取系统200决定判定为IDFt(wi)和IDFg(wi)均小于规定的阈值θ1(步骤410:是)的所有单词wi作为下限 对象词VShared,设定固定值μ为下限对象词VShared的单词wi的评分score (wi)(其中wi∈VShared),并将其存储在统计词典存储部235中(步骤 415)。

另一方面,针对判定为IDFt(wi)和IDFg(wi)的至少一方为规 定阈值θ1以上(步骤410:否)的单词wi,闲谈提取系统200使用在步 骤400求出的出现频率CF(w)、SF(w),按照公式4计算出现频率比 RF(wi)(步骤420)。接着,针对除了下限对象词VShared的各单词,闲 谈提取系统200设定IDFt(wi)与RF(wi)之积为score(wi),并将其 存储在统计词典存储部235中(步骤425)。然后,处理结束。

在图5中示出的闲谈部分的检测处理从步骤500开始,闲谈提取系 统200设定用来判定是否为闲谈部分的单位长度即区间长度L(单词 数),并把1代入区间索引P中(步骤505)。接着,闲谈提取系统200 从存储在对话数据存储部240中的文本数据的前端起,依次选择从单 词wp至单词wp+L-1的单词列(“窗口”)(步骤510)。接着,针对选择的 单词列,闲谈提取系统200参照统计词典存储部235,并计算出选择的 单词列中所包含的单词的score(wi)的总和Tscore(步骤515),进而 利用下列公式求出移动平均值。

[公式9]

1|m|ΣiTscore(i)

其中,i=m×p,…,p

在上面的公式中,m为移动平均窗口的宽度。

接着,闲谈提取系统200判定计算出的移动平均值是否大于规定 的阈值θ(步骤520)。Tscore为规定的阈值θ以下的情况下(步骤520: 否),闲谈提取系统200判定为以现在的区间索引P识别的区间不是闲 谈部分(步骤530)。另一方面,Tscore大于规定的阈值θ情况下(步 骤520:是),闲谈提取系统200判定为以现在的区间索引P识别的区间 是闲谈部分(步骤530)。接着,闲谈提取系统200将区间索引P增加1 (步骤535),并判断是否可以从存储在对话数据存储部240中的文本 数据中选择下一个单词列(步骤540)。可选择的情况下(步骤540: 是),处理返回到步骤510。另一方面,不能选择的情况下(步骤540: 否),处理结束。

实验结果

参照图6说明本发明的实验结果。此外,实验的条件如下。

1.一般性语料库:大约1个月量的twitter

2.对象领域的语料库:金融公司营业厅的电话对话

-大约1000个电话

-利用声音识别转换成文本(没有错误修正)

3.作为基础利用的特征词检测技术:tf-idf

4.比较方法

A.baseline:使用通常的tf-idf作为评分值

B.Shared word flooring(1):针对使用两种语料库求出的下限对 象词VShared,把规定的常数μ作为评分值,针对其他单词,使用通 常的tf-idf作为评分值

C.(1)+Frequency ratio weighting:在上述方法B的基础之上, 把利用出现频率比rf来代替tf值的rf-idf作为评分值使用

在图6的表中示出的数值为分别针对上述precision、recall、 f-measure(F值)这3种精度的值,表示值较大精度较好。与通常的把 tf-idf作为评分值的方法A相比,应用了本发明的方法B和方法C的任一 方法均示出了改善了精度的值。特别是针对F值,引人注目的是,在 把新的特征量rf-idf值为评分值的方法C中,可以看出显著的改善。

以上,使用实施方式进行了本发明的说明,但本发明的技术范围 不限定于上述实施方式记载的范围内。本领域技术人员可以理解,可 对上述实施方式施加各种变更或改良。例如,决定部225还可针对对 象领域的语料库所包含的各单词,决定一般性语料库的idf值和对象领 域的语料库的idf值均在第三规定阈值以上的单词作为上限对象词。然 后,评分计算部230可对上限对象单词使用作为上限的常数来代替 tf-idf值。此外,使用附带了“闲谈”标签的少量开发用数据,并预先 设定第三规定阈值或作为上限的常数,从而针对该数据,上述闲谈检 测方法的检测结果的精度最好。因此,施加了这样的变更或改良的方 式当然也包含在本发明的技术性的范围内。

此外,需要留意的是,只要是没有特别明确表示“之前”、“在先” 等,并且不是把前面处理的输出使用在后面的处理,就可以以任意顺 序实现在权利要求书、说明书、以及附图中示出的装置、系统、程序、 以及方法的操作、顺序、步骤以及阶段等各处理的执行顺序。另外, 需要留意的是,即使把前面处理的输出在后面的处理使用的情况下, 也有可能出现在前面的处理与后面的处理之间插入其他处理的情况, 或者即使记载了在前面的处理与后面的处理之间有其他处理,也有可 能出现变更为把前面的处理紧挨在后面的处理的前面执行的情况。对 于权利要求书、说明书、以及附图中的操作流程,即使为了方便期间 使用了“首先,”、“然后,”、“接着,”等进行了说明,但并不意味着 必须以该顺序实施。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号