首页> 中国专利> 交互式语言学习系统及交互式语言学习方法

交互式语言学习系统及交互式语言学习方法

摘要

本发明涉及一种交互式语言学习系统及交互式语言学习方法,所述交互式语言学习系统的核心模块包括特征提取模块、语音识别模块、发音评价模块、韵律检测模块、韵律评价模块,它们一起组成发音及韵律检测模块。所述交互式语言学习系统能实时的将学习者的语音输入进行判断和反馈,使学习者能够精确把握自己发音的具体错误之处,并结合反馈结果和记忆曲线动态提供记忆内容,使学习者能够循序渐进的提高语言水平,形成一种交互式的学习方式。

著录项

  • 公开/公告号CN101739870A

    专利类型发明专利

  • 公开/公告日2010-06-16

    原文格式PDF

  • 申请/专利权人 深圳先进技术研究院;

    申请/专利号CN200910188702.6

  • 发明设计人 王岚;李崇国;陈金玉;蒙美玲;

    申请日2009-12-03

  • 分类号G09B19/06(20060101);G10L15/02(20060101);G10L13/08(20060101);

  • 代理机构44224 广州华进联合专利商标代理有限公司;

  • 代理人吴平

  • 地址 518055 广东省深圳市南山区西丽深圳大学城学苑大道1068号

  • 入库时间 2023-12-18 00:31:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-07-04

    授权

    授权

  • 2010-09-01

    实质审查的生效 IPC(主分类):G09B19/06 申请日:20091203

    实质审查的生效

  • 2010-06-16

    公开

    公开

说明书

【技术领域】

本发明涉及一种交互式语言学习系统及交互式语言学习方法。

【背景技术】

语言学习是人们所学知识中非常重要的部分之一。也有越来越多的人依靠语言学习辅助工具来提高语言学习的速度和效率。丰富的学习内容、互动的交互方式、个性化的课程、便于操作等方面已经是语言学习系统的发展的必然趋势。

字典实质是一种学习辅助系统,但是它仅仅以文字为媒介,虽然在阅读和写作上有帮助,但是对于听和说并不能起到直接的帮助作用。随着计算机、多媒体、语音等技术的不断发展,能够对听说读写等方面有一定程度或部分支持的辅助学习系统不断涌现。从电子辞典的出现,到后来的跟读机、点读机,以及一些学习软件比如听力、写作软件等的出现,使学习辅助系统的形式和功能逐渐丰富起来。

但是,这些系统的不足之处是只实现了对听说读写的部分支持,没有把语言学习的各个环节有机的结合起来,缺乏实时的错误判断和反馈,学习者只是在被动地接受。其中存在对发音质量评测的系统,但其最终给学习者的只是一个分数或者级别,并且这个分数难具准确性和权威性。更重要的是,学习者关心的是自己发音的具体错误、哪个地方有误,但是这种发音评测系统难以给出学习者想要的结果,并且没有告诉学习者如何纠正错误。

因此,现有技术存在缺陷,需要改进。

【发明内容】

有鉴于此,有必要针对上述问题,提供一种能实时反馈学习错误情况以及具有交互式练习和交互式记忆的交互式语言学习系统及交互式语言学习方法。

一种交互式语言学习系统,包括:语音采集模块,用于采集学习者的语音数据;发音及韵律检测模块,用于从语音数据中提取用于发音和韵律错误检测的特征参数,并对错误进行进一步判断以及控制错误显示的程度,得到最终的音素错误和韵律错误;数据存储及统计模块,用于记录所述音素错误和韵律错误,并结合这些错误对学习者的发音状况给予总体评价,将评价结果反馈给交互模块;交互模块,包括显示界面,所述显示界面用于显示音素错误和韵律错误,学习者发音状况的总体评价以及帮助选项,并提供发音提示。

优选的,所述发音及韵律检测模块包括:特征提取模块,用于从所述语音数据中提取用于发音和韵律错误检测的特征参数;语音识别模块,基于声学模型结合语言模型或词网络,对所述特征参数进行识别,分别得到单词序列、音素序列、相应的时间边界、似然概率值;发音评价模块,用于将识别得到的音素序列和系统的参考音素进行比较对齐,得到音素错误及帮助选项;韵律检测模块,用于结合特征参数、音素序列、时间边界信息,采用统计模型得到单词重读模式、整句语调和时间节奏;韵律评价模块,用于将单词重读模式、整句语调和时间节奏同参考发音进行比较,得到韵律错误及帮助选项。

优选的,所述语音采集模块采集的语音数据包括对系统提供的发音提示进行跟读以及按照发音情景说话得到的语音数据。

优选的,所述发音评价模块首先使用统计的方法结合所述单词序列、音素序列、时间边界和似然概率值进行单词级别内容的判别,如果内容不一致,系统记录内容错误,并在所述交互模块中提示整句内容不符合要求,请求学习者重新输入语音;否则对音素进行检测,得到音素错误,包括单词中音素的插入、删除、替换错误。

优选的,所述单词重读模式是以音节为单位进行判断的,包括单词中主重读音节的位置和次重读音节的位置;所述整句语调是整句话的句重音,即这个句子中重读音节的位置,其基于音节和语调,反映整句的基频变化趋势;所述时间节奏是对说话的快慢和时长的判断。

优选的,所述交互模块的发音提示采用发音文本,该发音文本是学习者的目标学习内容;或采用参考发音,该参考发音是目标语言国家的人所发的标准语音;又或采用发音情景,该发音情景是系统给出的情景,要求学习者按照该发音情景说话。

优选的,所述交互模块还包括输入界面,所述输入界面用于选择记忆模式、学习内容或退出系统;所述显示界面还用于显示系统反馈的信息,包括音频和拼写提示信息和所述数据存储及统计模块反馈的信息;所述交互模块选择语言学习材料,通过音频或者文本方式对学习者进行提示,音频提示是系统给出需要记忆的发音,要求学习者进行拼写和跟读,拼写提示是系统给出需要记忆的拼写内容的文本提示,要求学习者进行拼写,得到拼写内容;所述交互式语言学习系统还包括文本采集模块和文本拼写检测模块,所述文本采集模块用于采集所述拼写内容,得到输入文本;所述文本拼写检测模块用于检查输入文本,通过计算输入文本和标准答案文本的相似度编辑距离,得到拼写错误;所述数据存储及统计模块还用于记录所述拼写错误;所述数据存储及统计模块还包扩一个数据库,具体的错误统计情况将被及时地写入该数据库,该数据库不仅存储学习记录,而且还存储了学习内容;系统根据当前的错误记录、选择的记忆模式以及数据库中存储的学习内容,选择并产生新的学习内容以及音频和拼写提示,反馈给所述交互模块,从而进入下一轮的交互式学习,或者根据当前的学习进度重新选择学习内容,又或者退出系统。

优选的,所述拼写错误包括替代、插入和删除错误。

优选的,所述交互模块还用于展示一组任务形式的对话场景,通过该交互模块选定某个对话场景后,将会出现子任务,学习者要根据该交互模块提供的信息,进行交互操作并进行发音和拼写来完成任务;所述交互式语言学习系统还包括用户接口、操作判别模块;所述用户接口用于采集所述交互操作;所述操作判别模块用于判断所述交互操作是否符合任务要求,得到操作错误;所述数据存储及统计模块还用于记录所述操作错误,所述数据库还存储了与对话相关的信息;所述交互式语言学习系统还包括对话场景模块,根据所述数据存储及统计模块输出的错误统计和与对话相关的信息,动态生成新的对话场景,并通过所述交互模块进行显示;学习者可以通过所述交互模块选择进入新一轮学习,或者退出学习。

优选的,所述交互式语言学习系统的实现方式是客户端/服务器方式、浏览器/服务器方式、基于嵌入式系统的单机模式中的一种。

一种交互式语言学习方法,包括:采集学习者按程序要求进行发音得到的语音数据;从语音数据中提取用于发音和韵律错误检测的特征参数;基于声学模型,结合语言模型或词网络,对特征参数进行识别,分别得到单词序列、音素序列、相应的时间边界、似然概率值;将音素序列和系统的参考音素进行比较对齐,得到音素错误及帮助选项;结合特征参数、音素序列、时间边界信息,采用统计模型得到单词重读模式、整句语调和时间节奏;将单词重读模式、整句语调和时间节奏同参考发音进行比较,得到韵律错误及帮助选项;显示音素、韵律错误,发音状况的总体评价以及帮助选项,并提供发音提示。

优选的,还包括以下步骤:在采集语音数据前,输出音频或文本方式的记忆材料,要求学习者进行发音和拼写;采集需要记忆的拼写内容,得到输入文本;检查输入文本,得到拼写错误;根据得到的音素、韵律和拼写错误进行错误统计,记录具体音素错误、韵律错误以及拼写错误情况,并给出评价得分和反馈信息;显示评价得分和反馈信息;接收选择记忆模式、学习内容或退出程序的指令。

优选的,还包括以下步骤:展示对话场景,学习者按对话场景要求进行发音、拼写及交互操作;采集交互操作;判断交互操作是否符合任务要求,得到操作错误;根据得到的音素、韵律、拼写和操作错误进行错误统计,记录具体音素发音、韵律、拼写以及操作错误情况,并给出评价得分和反馈;动态生成新的对话场景,并进行显示。

上述交互式语言学习系统能实时的将学习者的语音输入进行判断和反馈,对学习者的输入音频进行音素级别的发音检测和单词级别的韵律检测,使学习者能够精确把握自己发音的具体错误之处,并结合反馈结果和记忆曲线动态提供记忆内容,使学习者能够循序渐进的提高语言水平,形成一种交互式的学习方式。

【附图说明】

图1是交互式语言学习系统第一实施方式的示意图。

图2是发音及韵律检测模块的示意图。

图3是交互式语言学习系统第二实施方式的示意图。

图4是交互式语言学习系统第三实施方式的示意图。

【具体实施方式】

下面结合附图,通过对本发明的具体实施方式的详细描述,将使本发明的技术方案及其他有益效果显而易见。

图1是交互式语言学习系统第一实施方式的示意图。交互式语言学习系统包括两大部分,即面向用户的用户端11和进行后台处理的数据处理端12。用户端11提供采集学习者行为的设备和显示界面,包括语音采集模块112、交互模块111;数据处理端12负责对用户端11采集的数据进行处理并生成显示信息,包括发音及韵律检测模块121、数据存储及统计模块122。

语音采集模块112用于采集学习者的语音数据。对于采集到的语音首先需要进行静音检测,其通过计算音频特征,例如能量(Energy)、过零率(ZeroCrossing Rate)等判断是否有语音输入或者输入的是否是静音等,如果判别没有语音输入或者是静音,将会要求重新采集语音。

发音及韵律检测模块121用于从语音数据中提取用于发音和韵律错误检测的特征参数,并对错误进行进一步判断以及控制错误显示的程度,得到最终的音素错误和韵律错误。

数据存储及统计模块122记录内容错误、音素错误以及韵律错误,并结合这些错误对学习者的发音状况给予总体评价,将评价结果反馈给交互模块111。

交互模块111用于将该内容、音素、韵律错误,发音状况的总体评价以及帮助选项显示给学习者,并提供包括发音文本、参考发音或发音情景的发音提示。该发音文本是学习者的目标学习内容,如单词、短语或句子;该参考发音是目标语言国家的人所发的标准语音;该发音情景是系统给出的一个情景,例如在路上遇到朋友向其打招呼,要求学习者按照该情景说话。

图2是发音及韵律检测模块的示意图。发音及韵律检测模块121包括特征提取模块202、语音识别模块203、发音评价模块204、韵律检测模块205、韵律评价模块206。

特征提取模块202对语音数据提取用于发音和韵律错误检测的特征参数,例如感知线性预测参数PLP(Perceptual Linear Prediction coefficients),Mel倒谱系数MFCC(Mel-frequency cepstral coefficients),帧平均能量(Energy)、即元音所跨越的所有帧的能量,帧平均基频(Pitch)、即元音所跨越的所有帧的基频和被其跨越帧数平均,以及它们前后向差分参数,包括前向帧平均能量差、后向帧平均能量差、前向辅音帧平均能量差、前向帧平均基频差、后向帧平均基频差、前向时长差、后向时长差等。

语音识别模块203基于声学模型,并结合语言模型或者词网络,对特征参数进行识别,分别得到单词级别和音素级别的序列、对应的时间边界以及相应的似然概率值(likelihood)。可以使用基于隐式马尔可夫模型(HMM,HiddenMarkov Model)的声学模型和一个发音词典。其声学模型是使用收集了目标语言国家的人们(Native Speakers)覆盖所有音素的语音而训练得到的;发音词典不仅包含了正确的发音,同时也包含了可能的错误发音。其语言模型或词网络是在单词级别发生概率的统计模型。对于学习者跟读输入的语音数据,语音识别模块203可以使用强制对齐方法,结合发音文本进行识别,得到单词序列和音素序列,以及时间边界和似然概率值;对于学习者按照情景要求说话输入的语音数据,语音识别模块可以结合词网络或语言模型进行解码,得到单词序列和音素序列,以及时间边界。

发音评价模块204首先使用统计的方法结合语音识别模块203的输入进行单词级别内容的判别。如果判定按发音提示跟读得到的语音数据和参考发音的单词序列不同,或者按发音情景说话得到的语音数据和标准答案内容不同,将不会进行音素级别的判断,而直接进入数据存储及统计模块122,记录内容错误,并在交互模块111中提示整句内容不符合要求,请求用户重新输入语音;否则使用字符串对齐算法,例如动态规划算法(Dynamic Programming Algorithm),通过对音素序列和系统提供的参考音素进行比较对齐并依据设定的反馈错误精度来进行发音评价,得到音素错误,包括单词中音素的插入(Insertion),删除(Deletion)和替换(Substitution)三类错误,以及帮助选项。

韵律检测模块205包括单词级别的单词重音模式(Lexical stress)检测、韵律(Prosody)检测,其结合语音识别模块203的结果、即音素序列、对应的时间边界信息、似然概率值,和特征提取模块202得到的帧平均能量、帧平均基频信息,根据系统提供的统计模型来得到语音数据句子中的单词重读模式、整句语调和时间节奏情况。该统计模型可以是通过训练得到的支持向量机模型(SVM,Support Vector Machine),或者神经网络(Neural Network),或者隐式马尔可夫模型(HMM,Hidden Markov Model)等;该单词重读模式是以音节为单位进行判断的,包括单词中主重读音节的位置和次重读音节的位置;该整句语调是整句话的句重音,即这个句子中重读音节的位置,是基于音节和语调的整句的基频变化趋势;该时间节奏是说话的快慢和时长方面的判断。

韵律评价模块206将该单词重读模式、整句语调和时间节奏同参考发音进行比较,并依据设定的反馈错误精度需求得到单词重读模式的错误情况和纠正帮助,以及整句重读音节、整句音调和节奏等韵律错误情况以及帮助选项。

图3是交互式语言学习系统第二实施方式的示意图。其与第一实施方式的区别在于增加了属于用户端11的文本采集模块113和属于数据处理端12的文本拼写检测模块123,并且将与这两个模块直接连接的交互模块111和数据存储及统计模块122的功能做了相应拓展。

交互模块111包括一显示界面和一输入界面。显示界面用于显示系统反馈给学习者的信息,包括音频和拼写提示信息,数据存储及统计模块122反馈的信息等。输入界面用于选择记忆模式、学习内容或退出系统等。交互模块111根据学习者选择或者系统自动选择的语言学习材料,比如单词、短语或者一个文本段,针对语言记忆的目的,通过文本或者音频方式提供给学习者。音频提示是系统给出需要记忆的发音,而要求学习者进行拼写和跟读;拼写提示是系统给出需要记忆的拼写内容,比如一个单词的部分字母,或者一个句子的部分单词。学习者根据提示拼写、同时读出需要记忆的内容,从而在发音和拼写上同时进行记忆。

文本采集模块113用于采集学习者拼写的需要记忆的内容,得到输入文本。

文本拼写检测模块123用于检查输入文本,通过计算输入文本和标准答案文本的相似度编辑距离(Levenshtein distance),得到具体的替代(Substitution)、插入(Insertion)、删除(Deletion)等拼写错误。

数据存储及统计模块122根据得到的语音错误和拼写错误进行错误统计,记录学习者的具体音素发音错误、韵律错误以及拼写错误情况,并给出评价得分和反馈,通过交互模块111进行显示。数据存储及统计模块122包含一个数据库,具体的错误统计情况将被及时地写入该数据库;该数据库不仅存储了学习者的学习记录,而且还存储了学习内容,包括对应的多媒体信息和标准答案等;系统根据当前用户的错误、选择的记忆模式以及数据库中存储的学习内容,选择并产生新的学习内容以及音频和拼写提示,从而进入下一轮的交互式记忆。学习者也可以根据当前的学习进度重新选择学习内容,或者退出此子系统。

图4是交互式语言学习系统第三实施方式的示意图。其与第二实施方式的主要区别在于增加了属于用户端11的用户接口114和属于数据处理端12的操作判别模块124、对话场景模块125,并且将与这三个模块直接连接的交互模块111和数据存储及统计模块122的功能做了相应拓展。交互式语言学习系统的第三实施方式将语言记忆和对话(Dialogue)相结合,充分练习语言学习中听说读写四要素,并与特定的场景结合,通过对话的方式学习在特定场合中语言的运用。

交互模块111是面向学习者的一个界面设备,用于给学习者展示一组任务形式的对话场景,比如在问路、买菜、旅游等各种使用语言的场景完成系统指定的任务;当学习者通过该模块选定某个对话场景后,将会先后出现对话、拼写、跟读、选择等子任务,学习者根据对话场景提供的信息,进行交互操作、输入语音和文本信息来完成任务。

用户接口114用于采集学习者与系统的交互操作,例如用键盘来控制方向、或者使用鼠标进行选择,得到具体的学习者对内容或者答案的选择。

操作判别模块124用于判断学习者的交互操作是否符合任务要求,得到操作错误。

数据存储及统计模块122根据得到的语音错误、拼写错误和操作错误进行错误统计,记录学习者的具体音素发音错误、韵律错误、拼写错误以及操作错误情况,并给出评价得分,通过交互模块111进行显示。数据存储及统计模块122包含一个数据库,具体的错误统计情况将被及时地写入该数据库;该数据库不仅存储了学习者的学习记录,还存储了学习内容,包括对应的多媒体信息和标准答案等,并存储了与对话相关的信息,比如对话场景信息、任务信息等。

对话场景模块125根据数据存储及统计模块122输出的错误统计情况和对话场景、任务信息,动态生成新的对话场景,并通过交互模块111显示给学习者,学习者可以通过交互模块111选择进入新一轮对话场景的学习,或者选择退出学习。

上述交互式语言学习系统有多种实现方式,例如基于网络的客户端/服务器(Client/Server)方式、基于网络的浏览器/服务器(Browser/Server)方式、基于嵌入式系统的单机模式等等。

基于网络的客户端、服务器方式:其客户端是学习者访问终端,提供语音输入、文本输入、音频播放以及鼠标键盘操作,并且对输入音频完成静音检测、特征提取以及网络传输、对话场景生成等功能,其服务器端完成对输入语音的错误发音检测、单词重音模式检测、韵律检测、拼写检查、错误反馈、帮助选项反馈、对话场景内容生成、数据库操作、学习信息统计、网络传输等功能。

基于网络的浏览器、服务器方式:其浏览器是学习者访问终端,提供语音输入、文本输入、音频播放、鼠标键盘操作、网络传输、对话场景,并通过插件(Plug-in)完成对输入音频完成静音检测以及特征提取等操作,其服务器包括数据处理服务器和Web服务器,其中数据服务器端完成对输入语音的错误发音检测、单词重音模式检测、韵律检测、拼写检查、错误反馈、帮助选项反馈、对话内容生成、数据库操作、学习信息统计、网络传输等功能,其中Web服务器是浏览器的访问服务器,浏览器与数据处理服务器之间进行直接的数据传输。

基于嵌入式系统的单机方式:在一个程序框架内完成语音输入、文本输入、音频播放、音频静音检测、音频特征提取、输入语音的错误发音检测及单词重读模式检测、韵律检测、拼写检查、错误反馈、对话内容生成、数据库操作、学习信息统计等。

上述交互式语言学习系统构建了一种交互式语言学习平台,使学习者充分练习语言学习中的听说读写四要素,把语言学习的各个环节有机的结合起来,提供自由度极高的场景对话学习形式以提高学习者的兴趣,调动学习者的积极性使其主动参与到学习当中,并给出实时的错误判断和反馈。

上述交互式语言学习系统对学习者的输入音频进行实时的音素级别(Phone-level)的错误发音(Mispronunciation)检测和韵律(Prosody)检测,韵律检测包括单词级别的单词重音模式(Lexical stress)检测及纠正帮助、韵律(Prosody)检测及模仿帮助;其中音素级别的错误发音检测对输入语音进行音素级别的语音识别,并指出其发生错误的具体音素;其中单词级别的单词重音模式检测及纠正帮助根据音素级别的检测获得的音素序列进行单词级别的识别,识别出单词的重音模式以及给出与正确重音模式相对比的错误种类;其中韵律检测及模仿帮助包括对发音语句的句重读(Sentence Stress),节奏(Rhythm),语调(Intonation)等方面的检测分析和标准发音的语句的韵律对比判别,并给出在韵律上的评价以及和模仿标准发音语句的帮助选项。使学习者能够精确把握自己发音的具体错误之处。并结合反馈结果和记忆曲线动态提供记忆内容,使学习者能够循序渐进的提高语言水平。

以上所述实施方式仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号