首页> 中国专利> 一种教学模式分析方法及系统

一种教学模式分析方法及系统

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提供一种教学模式分析方法及系统，包括：检测课堂音频中的活动音，并标记各段活动音的起始时间和结束时间；根据各段活动音的起始时间和结束时间将教学音频进行切割，得到多段活动音频；基于组合的梅尔倒谱特征MFCC向量提取各段活动音频中的不同说话人特征和不同说话人的时长；基于预训练好的通用背景模型UBM将不同说话人特征分别判别为教师说话和学生说话，并确定对应的教师说话时长和学生说话时长；根据教师说话时长占总课堂时长的比例判断课堂的教学模式为练习型课堂、讲授型课堂或混合型课堂。本发明采用人工智能技术从课堂音频中提取出课堂上教师学生交互话语数据，对教师课堂的教学模式进行分析。

著录项

公开/公告号CN112599135A

专利类型发明专利
公开/公告日2021-04-02

原文格式PDF
申请/专利权人华中师范大学;
展开▼

申请/专利号CN202011473387.4
发明设计人刘三女牙;陈增照;陈荣;易宝林;戴志诚;郑秋雨;张婧;王梦珂;
展开▼

申请日2020-12-15
分类号G10L17/00(20130101);G10L17/02(20130101);G10L17/04(20130101);G10L25/24(20130101);G10L25/51(20130101);G06Q50/20(20120101);
代理机构42267 武汉华之喻知识产权代理有限公司;
代理人邓彦彦;方放
地址 430079 湖北省武汉市珞喻路152号
入库时间 2023-06-19 10:27:30

说明书

技术领域

本发明属于教学活动与人工智能结合领域，更具体地，涉及一种教学模式分析方法及系统。

背景技术

随着教育信息化的高速发展，教学活动与人工智能技术的融合越来越紧密，但是教学评价环节仍然处于传统的人工标注统计阶段，缺乏智能化策略，缺乏便捷性、实效性以及客观性。而实时的教学模式分析能够帮助任课教师及时反思教学行为以及教学方法，总结与改正教学环节中的问题与不足，从而实施具有深度的直接有效的教学活动，利于教师专业素养的发展，进而提高教学质量。在教育信息化的时代背景下，将教学分析与人工智能技术相结合，解决了传统教学模式分析方法中存在的问题，同时也符合提升教师专业能力、促进教学质量的目标。

教学模式分析在教学评价环节中具有十分重要的意义，尽管目前很多国内外研究者已经提出了一系列成熟的师生行为量化分析方法例如“S-T分析法”，但是在研究过程中的数据处理阶段想要区分课堂中教师和学生的话语交互行为仍然需要人工手动地对课堂教学音频进行区分并做标记，缺乏一个能够自动分析教学模式的系统工具。

综上，现有教学模式分析方法的不足主要有以下几点：

1)基于传统测量和评价方法，教学模式分析具有较为丰富的理论基础，但因其数据处理的复杂性、主观性、消耗性，因而无法普及，使得相关权威量表和评价指标较少，研究难以突破。

2)教学模式分析成本高、主观性强，缺乏较为客观的、自动的数据处理模型与分析工具。在进行传统教学模式分析的过程中需要对课堂音频进行全面的人为判断，尤其是需要进行大量的数据信息的处理，因此，现有教学模式分析就体现出了复杂性和困难。

3)传统的教学行为分析系统在语音检测切割阶段需要调用API工具实现音频到时间戳节点JSON文件的转换，获得音频时间断点从而进行切割，这种方式不能够保证切割的准确性，并且在使用过程中处于收费模式，不够经济节约并且可持续性不高。

发明内容

针对现有技术的缺陷，本发明的目的在于一种教学模式分析方法及系统，旨在解决现有教学模式分析方法需要对课堂音频进行全面的人为判断，尤其是需要进行大量的数据信息的处理，以及语音检测切割阶段不能保证切割的准确性和经济性等问题。

为实现上述目的，第一方面，本发明提供了一种教学模式分析方法，包括如下步骤：

检测课堂音频中的活动音，并标记各段活动音的起始时间和结束时间；根据各段活动音的起始时间和结束时间将教学音频进行切割，得到多段活动音频；所述活动音指的是非静音音频；

基于组合的梅尔倒谱特征MFCC向量提取各段活动音频中的不同说话人特征和不同说话人的时长；所述组合的MFCC向量由MFCC与一阶差分MFCC向量和二阶差分MFCC向量横向拼接得到；

基于预训练好的通用背景模型UBM将不同说话人特征分别判别为教师说话和学生说话，并确定对应的教师说话时长和学生说话时长；所述预训练好UBM可以拟合不同说话人的特征，所述不同说话人包括教师和学生；

根据教师说话时长占总课堂时长的比例判断课堂的教学模式为练习型课堂、讲授型课堂或混合型课堂；当教师说话时长占总课堂时长的比例低于第一阈值时，则教学模式为练习型课堂；当教师说话时长占总课堂时长的比例大于第二阈值时，则教学模式为讲授型课堂；否则认为教学模式为混合型课堂；所述第一阈值小于第二阈值。

在一个可选的实施例中，采用高斯混合模型GMM检测课堂音频中的话语部分和非话语部分；其中，话语部分为活动音，非话语部分为静音。

在一个可选的实施例中，所述基于预训练好的通用背景模型UBM将不同说话人特征分别判别对教师说话和学生说话，具体为：

基于组合的MFCC向量提取采集的多个真实课堂音频的不同说话人特征，基于多个真实课堂音频的不同说话人特征训练UBM；所述UBM能够拟合大量说话人特征，目标说话人的特征数据散落在UBM高斯分布的周围，通过MAP自适应算法将UBM中的每个高斯分布向目标说话人特征数据偏移；

基于组合的MFCC向量提取采集的多个真实课堂音频的教师语音片段，在UBM的基础上训练对应的教师GMM模型；所述教师GMM模型是由教师的音频提取出的特征训练出来的高斯混合模型，用于模拟教师语音矢量特征的连续概率分布；

通过GMM和UBM自带的打分方法与教师GMM模型对所述不同说话人特征进行打分，认为分数高于预设阈值则对应的说话人特征教师话语，否则判为学生话语。

在一个可选的实施例中，所述目标说话人的特征数据散落在UBM高斯分布的周围，通过MAP自适应算法将UBM中的每个高斯分布向目标说话人特征数据偏移，具体为：

计算目标说话人特征数据矢量集X(X

其中，x

根据相似度得出新的通用背景模型UBM的均值E

其中，n

将上一步得到的新参数与UBM模型原始的参数相融合，得到最终的目标说话人的GMM高斯混合模型：

其中，a

在一个可选的实施例中，通过PyQt5交互式可视化GUI设计工具把教学模式的判断结果可视化出来；可视化的结果包括课堂话语时序图和课堂话语分布图；

在课堂话语时序图中，横轴表示一节课的时长，单位为分钟，纵轴表示课堂在每分钟内教师或者学生的话语时长，单位为秒；

在课堂话语分布图中，将整堂课的教师话语，学生话语以及寂静的总时间和各自占比通过饼状图的形式展现出来。

第二方面，本发明提供一种教学模式分析系统，包括：

课堂音频检测单元，用于检测课堂音频中的活动音，并标记各段活动音的起始时间和结束时间；根据各段活动音的起始时间和结束时间将教学音频进行切割，得到多段活动音频；所述活动音指的是非静音音频；

说话人特征提取单元，用于基于组合的梅尔倒谱特征MFCC向量提取各段活动音频中的不同说话人特征和不同说话人的时长；所述组合的MFCC向量由MFCC与一阶差分MFCC向量和二阶差分MFCC向量横向拼接得到；

话语时长确定单元，用于基于预训练好的通用背景模型UBM将不同说话人特征分别判别为教师说话和学生说话，并确定对应的教师说话时长和学生说话时长；所述预训练好UBM可以拟合不同说话人的特征，所述不同说话人包括教师和学生；

教学模式判断单元，用于根据教师说话时长占总课堂时长的比例判断课堂的教学模式为练习型课堂、讲授型课堂或混合型课堂；当教师说话时长占总课堂时长的比例低于第一阈值时，则教学模式为练习型课堂；当教师说话时长占总课堂时长的比例大于第二阈值时，则教学模式为讲授型课堂；否则认为教学模式为混合型课堂；所述第一阈值小于第二阈值。

在一个可选的实施例中，所述课堂音频检测单元采用高斯混合模型GMM检测课堂音频中的话语部分和非话语部分；其中，话语部分为活动音，非话语部分为静音。

在一个可选的实施例中，所述说话人特征提取单元基于组合的MFCC向量提取采集的多个真实课堂音频的不同说话人特征；

所述话语时长确定单元基于多个真实课堂音频的不同说话人特征训练UBM；所述UBM能够拟合大量说话人特征，目标说话人的特征数据散落在UBM高斯分布的周围，通过MAP自适应算法将UBM中的每个高斯分布向目标说话人特征数据偏移；基于组合的MFCC向量提取采集的多个真实课堂音频的教师语音片段，在UBM的基础上训练对应的教师GMM模型；所述教师GMM模型是由教师的音频提取出的特征训练出来的高斯混合模型，用于模拟教师语音矢量特征的连续概率分布；以及通过GMM和UBM自带的打分方法与教师GMM模型对所述不同说话人特征进行打分，认为分数高于预设阈值则对应的说话人特征教师话语，否则判为学生话语。

在一个可选的实施例中，所述话语时长确定单元计算目标说话人特征数据矢量集X(X

其中，x

根据相似度得出新的通用背景模型UBM的均值E

其中，n

将上一步得到的新参数与UBM模型原始的参数相融合，得到最终的目标说话人的GMM高斯混合模型：

其中，a

在一个可选的实施例中，该系统还包括：可视化单元，用于通过PyQt5交互式可视化GUI设计工具把教学模式的判断结果可视化出来；可视化的结果包括课堂话语时序图和课堂话语分布图；在课堂话语时序图中，横轴表示一节课的时长，单位为分钟，纵轴表示课堂在每分钟内教师或者学生的话语时长，单位为秒；在课堂话语分布图中，将整堂课的教师话语，学生话语以及寂静的总时间和各自占比通过饼状图的形式展现出来。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供一种教学模式分析方法及系统，通过采用人工智能技术从课堂音频中提取出课堂上教师学生交互话语数据，对教师课堂的教学模式进行分析。利用语音活动检测算法和说话人识别算法对教学音频进行检测切割并识别，并通过PyQt5交互式可视化GUI设计工具把识别分析结果可视化出来，通过分析结果能够帮助教师反思课堂教学过程中师生话语互动频率，改进教学方法，提高教学效果。

本发明提供一种教学模式分析方法及系统，基于传统的GMM-UNM说话人识别模型，在对课堂音频预处理过程中采用了VAD活动语音检测算法检测话语和非话语从而获得每个片段起始和结束时间戳，根据时间戳对课堂音频进行切割，提出了一种人工智能技术结合的可将教学模式可视化的方法，导入课堂音频即能够直观的展示出课堂中教师学生的话语分布，以及教师学生的话语变化曲线图。

本发明提供一种教学模式分析方法及系统，提出了一种教学模式分析方法，以一节课时间为横轴，单位时间内教师或者学生发言时长为纵轴的教师学生话语时序曲线图，以及课堂教师-学生话语占比饼状图。

附图说明

图1是本发明实施例提供的教学模式分析方法流程图；

图2是本发明实施例提供的教学模式分析流程图；

图3是本发明实施例提供的说话人识别流程图；

图4是本发明实施例提供的课堂话语时序图；

图5是本发明实施例提供的课堂话语分布图；

图6是本发明实施例提供的教学模式分析系统架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明的目的是基于语音活动检测算法(Voice Activity Detection，VAD)以及高斯混合-通用背景模型(GMM-UBM)对课堂教学音频进行话语和非话语检测、切割和识别，将识别结果分类为Q(寂静)，S(学生话语)，T(教师话语)三种身份，从而自动进行课堂教学模式分析，最终结果展示为教师话语、学生话语以及寂静的饼状分布图和曲线图。

图1是本发明实施例提供的教学模式分析方法流程图，如图1所示，包括如下步骤：

S101，检测课堂音频中的活动音，并标记各段活动音的起始时间和结束时间；根据各段活动音的起始时间和结束时间将教学音频进行切割，得到多段活动音频；所述活动音指的是非静音音频；

S102，基于组合的梅尔倒谱特征MFCC向量提取各段活动音频中的不同说话人特征和不同说话人的时长；所述组合的MFCC向量由MFCC与一阶差分MFCC向量和二阶差分MFCC向量横向拼接得到；

S103，基于预训练好的通用背景模型UBM将不同说话人特征分别判别为教师说话和学生说话，并确定对应的教师说话时长和学生说话时长；所述预训练好UBM可以拟合不同说话人的特征，所述不同说话人包括教师和学生；

S104，根据教师说话时长占总课堂时长的比例判断课堂的教学模式为练习型课堂、讲授型课堂或混合型课堂；当教师说话时长占总课堂时长的比例低于第一阈值时，则教学模式为练习型课堂；当教师说话时长占总课堂时长的比例大于第二阈值时，则教学模式为讲授型课堂；否则认为教学模式为混合型课堂；所述第一阈值小于第二阈值。

本发明中的教学模式分析方法分为三部分：语音活动检测与切割、说话人识别以及课堂模式分析可视化；其中说话人识别过程有三步：特征提取，建立模型，结果预测。总的处理流程如图2所示。首先把课堂教学音频导入教学模式分析系统中，利用语音活动检测算法对课堂音频进行检测与切割，分别对音频片段进行说话人识别，根据识别结果划分为寂静、教师话语、学生话语三类，最后实现教学模式分析结果可视化。

1、VAD语音活动检测算法

采用VAD检测算法逐帧检测音频中的活动音部分和静音部分，并且标记活动音为1，静音为0，并标记起始时间和结束时间。在算法实现中通过设计一个活动语音生成器，在音频帧上使用填充的滑动窗口，当窗口中超过90％的帧发声时，收集器将触发并开始产生音频帧。检测到静音部分则清除帧，收集器将一直等到窗口中90％的帧被清除为止。然后将时间戳存储在一个.txt文件中，并生成起始时间戳和结束时间戳列表，供后续音频切割和结果可视化阶段使用。

1.1、活动音检测

活动音检测一般采用高斯混合模型(Gaussian Mixture Model，GMM),其本质是通过多个高斯模型的线性叠加，通常，语音中的话语和非话语片段的信号分布都可以通过多个高斯混合模型加权叠加表示：

式中每一维高斯模型的概率分布函数P

其中，μ

λ＝{M，ω

对课堂音频中的话语和非话语部分按照上述算法建立各自的高斯混合模型，然后对整体音频进行逐帧检测并与生成的话语和非话语模型相似度判断，从而达到区分话语和非话语的效果。经过语音活动检测算法逐帧对整体课堂音频中话语(1)和非话语(0)划分。

1.2、音频切割

音频切割是通过检测话语跳变点来确定分割边缘，根据VAD活动语音检测算法得到的始末时间戳文件对整体课堂音频进行切割，得到切割好的音频片段和每个片段对应的起始和结束时间节点。

2、说话人识别

图3为本发明实施例提供的说话人识别流程图，如图3所示，包括如下步骤：

2.1、特征提取

在对课堂音频进行切割处理之后，分别对每个音频片段提取特征。在特征提取中使用最符合人耳听觉特征的梅尔倒谱特征MFCC，将MFCC与一阶差分MFCC、二阶差分MFCC同时结合起来进行横向拼接，得到一个39维的特征向量，能够最大程度的保留说话人的特征，实现更优的特征提取。

2.2、模型训练

对采集好的十个真实课堂音频(每节课45分钟，包含30-35个学生和一名教师，能够达到通用背景模型的数据量要求)进行预处理，提取梅尔倒谱特征，训练一个通用背景模型(Universal Background Model，UBM)，需要注意的是在训练通用背景模型时非目标训练集越多，训练的模型效果越好，泛化能力越强。

在高斯混合-通用背景模型中，UBM能够拟合出大量说话人的特征，目标说话人的特征数据散落在UBM某些高斯分布的周围，通过MAP自适应算法将UBM中的每个高斯分布向目标用户数据偏移。具体计算方法如下：

计算训练矢量集X(X

然后根据相似度更新权重、均值和方差参数：

由上一步得到的更新后的参数与UBM参数相融合，得到最终的目标说话人模型：

其中，自适应参数α

提取目标课堂的教师语音片段，在UBM的基础上训练对应的教师GMM模型，然后分别针对每个音频片段进行检测，如果是非语音则跳过，否则提取特征，并通过GMM和UBM自带的score方法与教师GMM模型进行打分，认为分数高于所设置阈值即为教师话语，否则判为学生话语。

3、结果可视化

采用python自带的PyQt5交互式可视化GUI设计工具设计一个窗口程序将教学模式分析结果可视化出来，结果分别以课堂话语时序图和课堂话语分布图展现。如下是一节优质小学语文课堂的分析结果，通过两张模式分析图能够明显的看出该课堂属于教师引导型课堂，且课堂氛围活跃，师生互动性较强。

如图4所示，在课堂话语时序图中，横轴表示一节课的时长，单位为分钟，纵轴表示目标课堂在第i分钟内教师或者学生的话语时长，单位为秒，通过这种可视化方式能够直观明了的观察教师或者学生在某个时间段内的课堂发言情况。

如图5所示，在课堂话语分布图中，将整堂课的教师话语，学生话语以及寂静的总时间和各自占比通过饼状图的形式展现出来，能够一目了然地对整堂课的教师以及学生的参与度有个整体的把握和认知，更加方便后续一系列的教学分析。

图6是本发明实施例提供的教学模式分析系统架构图，如图6所示，包括：

课堂音频检测单元610，用于检测课堂音频中的活动音，并标记各段活动音的起始时间和结束时间；根据各段活动音的起始时间和结束时间将教学音频进行切割，得到多段活动音频；所述活动音指的是非静音音频；

说话人特征提取单元620，用于基于组合的梅尔倒谱特征MFCC向量提取各段活动音频中的不同说话人特征和不同说话人的时长；所述组合的MFCC向量由MFCC与一阶差分MFCC向量和二阶差分MFCC向量横向拼接得到；

话语时长确定单元630，用于基于预训练好的通用背景模型UBM将不同说话人特征分别判别为教师说话和学生说话，并确定对应的教师说话时长和学生说话时长；所述预训练好UBM可以拟合不同说话人的特征，所述不同说话人包括教师和学生；

教学模式判断单元640，用于根据教师说话时长占总课堂时长的比例判断课堂的教学模式为练习型课堂、讲授型课堂或混合型课堂；当教师说话时长占总课堂时长的比例低于第一阈值时，则教学模式为练习型课堂；当教师说话时长占总课堂时长的比例大于第二阈值时，则教学模式为讲授型课堂；否则认为教学模式为混合型课堂；所述第一阈值小于第二阈值。

可视化单元650，用于通过PyQt5交互式可视化GUI设计工具把教学模式的判断结果可视化出来；可视化的结果包括课堂话语时序图和课堂话语分布图；在课堂话语时序图中，横轴表示一节课的时长，单位为分钟，纵轴表示课堂在每分钟内教师或者学生的话语时长，单位为秒；在课堂话语分布图中，将整堂课的教师话语，学生话语以及寂静的总时间和各自占比通过饼状图的形式展现出来。

具体地，图6中各个单元的功能可参见前述方法实施例中的介绍，在此不做赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种教学模式分析方法及系统 [P] . 中国专利： CN112599135A . 2021-04-02
2. 一种基于课堂教学互动行为云的教学模式分析方法 [P] . 中国专利： CN106295222A . 2017-01-04
3. assay method and kit for one analyte in one sample and system for performing the assay method [P] . BRPI1008760B1 . 2019-12-10

机译：一种样品中一种分析物的分析方法和试剂盒以及执行该分析方法的系统
4. ANALYSIS APPARATUS FOR PREFERENCE, AN ANALYSIS METHOD THEREBY, A STORAGE MEANS, AN INFORMATION OFFERING SYSTEM, AN INFORMATION OFFERING SERVICE SERVER, AN INFORMATION OFFERING METHOD AND AN ANALYSIS ALGORITHM FOR PREFERENCE, PARTICULARLY FOR CALCULATING CURRENT INTEREST AND PREFERENCE DEGREE OF A USER [P] . 韩国专利： KR20100007080A . 2010-01-22

机译：偏好分析设备，一种分析方法，一种存储方式，一种信息提供系统，一种信息提供服务服务器，一种信息提供方法和一种偏好分析算法，特别是用于计算用户的当前权益和偏好
5. The system of cartridge, method for forming a cartridge, cartridge, test system, method of analysis for one or more analytes in a sample, a reagent component for storing one or more reagents, and the use of a system of cartridge, cartridge, the test system and / or component reagent. [P] . BRPI0717552A2 . 2013-10-22

机译：药筒系统，药筒形成方法，药筒，测试系统，样品中一种或多种分析物的分析方法，用于存储一种或多种试剂的试剂组分以及药筒系统，药筒，测试系统和/或成分试剂。