技术领域
本发明涉及教育数据挖掘领域、数据预测领域,具体涉及一种基于粒子群算法和极限学习机的学生成绩预测方法。
背景技术
随着教育信息化迈入2.0时代,大数据在高校信息化领域的应用也逐渐被发掘。通过大数据分析技术,对处于没有被挖掘利用的海量数据进行有效利用,挖掘其背后隐藏的价值规律,对高校的教育改革具有非常重要的现实指导意义。
同时,随着高等教育普及化程度的增强以及高校的持续扩招,在校生人数逐年增多,课堂规模越来越大,教师很难跟踪了解每一位学生的学习情况,这在一定程度上影响了教学质量。以大数据为基础,根据学生的各项行为特征数据,不但能够对其学习成绩进行预测,可以及时发现问题,从而对学生和教师起到提前预警、引导纠正的作用。而且可以进一步提高高校的教学管理水平,同时可加快高校智慧化校园建设步伐。
但是,目前大多数高等院校还处于传统的教育管理模式,在以往的有关学生成绩预测的研究中并没有充分挖掘海量的数据,其相关研究存在以下几点不足:以往的研究大致分为三类,一是基于人工的预测方法,费时费力效率低,且准确性经不起推敲;二是基于数理统计的预测,对于非线性数据的预测能力低,预测精度低;三是基于极限学习机的预测,现有研究不足以捕捉非线性且可能会产生稳定性差的问题等。
因此,本发明专利针对预测学生成绩中存在的问题,将机器学习方法应用于学业成绩的预测,实现一种基于粒子群算法优化极限学习机的学生成绩预测方法,力求能够推动这一研究的发展。本发明专利考虑多种相关因素的影响,经过测试集验证后得出学生的学习成绩预测结果准确率平均值为97.185%。
发明内容
本发明的目的是准确而系统地挖掘学生行为特征数据,建立一个高精度的成绩预测模型,为学生管理提供可靠的决策依据,利用二元相关分析,建立PSO-ELM优化模型,预测学生成绩。
为达到上述目的,本发明采用以下技术方案予以实现。
一种基于极限学习机的学生成绩预测优化方法,包括(1)数据统计处理,(2)二元相关分析,(3)建立优化模型,(4)多种预测方法对比。
步骤1:提取易班平台数据,包括图书借阅数据(专业类图书借阅量、非专业类图书借阅量、图书总借阅量)和一卡通消费数据(消费频次、消费金额、早餐频次、午餐频次、晚餐频次),以及日常统计数据,包括宿舍卫生检查数据(卫生优次数、卫生良次数、卫生差次数)和学生课堂考勤数据,对这些数据进行数据审核、数据筛选和数据排序。
步骤2:通过二元相关分析,探究各因素与学分绩点的相关性,得出学分绩点与各因子的皮尔逊相关性值、肯德尔相关性值和斯皮尔曼相关性值,分析各个因素与学分绩点紧密相关性。
步骤3:使用粒子群算法(PSO)优化极限学习机(ELM),合理选择输入权值和偏差阈值,从而获得稳定的预测模型。
步骤4:将处理好的数据分别带入不同模型中,运行结果并分析。
所述步骤1的具体实现,包括数据审核、数据筛选和数据排序。
步骤1.1:进行数据审核,包括准确性审核、适用性审核以及及时性审核,审核数据是否过期,是否使用于此类方法,是否准确。
步骤1.2:对数据进行筛选,通过编写SQL语句,将所需要的数据从数据库(SQLServer)中筛选出来,对无用数据进行清理,对空缺值处理。
步骤1.3:对数据进行排序,主要针对于数值型数据,排序只有两种,即递增和递减,对图书借阅数据、一卡通消费数据、宿舍卫生数据以及考勤数据进行排序。
所述步骤2的具体实现,将数据导入到SPSS工具中,进行三个方面的分析,即皮尔逊相关性、肯德尔相关性和斯皮尔曼相关性。
步骤2.1:皮尔逊相关性分析,将步骤1处理后的数据导入到SPSS工具中,计算出皮尔逊相关性值。
步骤2.2:肯德尔相关性分析,将步骤1处理后的数据导入到SPSS工具中,计算出肯德尔相关性值。
步骤2.3:斯皮尔曼相关性分析,将步骤1处理后的数据导入到SPSS工具中,计算出斯皮尔曼相关性值。
步骤2.4:将步骤2.1、2.2以及2.3计算出的值进行综合分析,得出学分绩点与12个因素的相关性的显著程度。
所述步骤3的具体实现,使用粒子群算法(PSO)选择最优的输入权值矩阵和隐含层偏差,从而计算出输出权值矩阵。PSO-ELM模型算法分为2个部分,(1)粒子群算法和(2)极限学习机算法。
(1)粒子群算法:将已处理数据作为粒子群算法的初始值,通过迭代找到最优解,在每一次迭代中,粒子通过跟踪两个“极值”来更新自己,即个体极值(
(2)极限学习机:经过粒子群算法得到优化ELM的输入权重和隐藏层偏差的选择,ELM能够结合PSO算法来准确地进行仿真。
所述步骤4的具体实现,包括PSO-ELM、DEEP-ELM、ELM、SVM、BPNN算法之间的对比。将数据分别代入所有预测模型中,并对得出的中位数绝对误差(MAD)和均方根误差(RMSE)来比较所有模型的精度。
与现有技术相比,本发明具有以下有益效果。
(1)与其他模型相比,无论在哪个阶段,PSO-ELM的MAD和RMSE都最低,预测结果的精准度和可靠性更强,PSO增强了ELM的稳定性,使仿真精度能够达到很高的水平;(2)在无优化模型比较中,ELM优于其它模型,而BPNN则表现最差;(3)PSO-ELM算法以较少的隐含层神经元节点获得更高的分类精度,参数优化提高了模型拟合能力,成功改善了网络参数随机生成带来的分类精度偏低的问题;(4)结果表明,所选因素是合理的、适宜的。
附图说明
图1为本发明的PSO-ELM模型流程图。
图2为本发明所用学生数据获取来源图。
图3为不同预测模型的比较分析框架图。
图4为实施案例一中5种模型的学分绩点预测。
图5为实施案例一中5个模型的RMSE和5个模型的MAD的条形图。
图6为实施案例二中5种模型的学分绩点预测。
图7为实施案例二中5个模型的RMSE和5个模型的MAD的条形图。
具体实施方式
下面结合附图对本申请作进一步详细描述,有必要在此指出的是,以下具体实施方式只用于对本申请进行进一步的说明,不能理解为对本申请保护范围的限制,该领域的技术人员可以根据上述申请内容对本申请作出一些非本质的改进和调整。
如图1所示,本发明的基于极限学习机模型的学生学业成绩预测方法包括以下主要步骤。
步骤一:对学生数据进行收集。
步骤二:对收集到的数据进行预处理,分为三个部分,数据审核、数据筛选和数据排序。
步骤三:探究代入预测模型的各因素与学生成绩的相关性,通过SPSS软件进行二元相关分析,如表1所示,分析学分绩点与各因子的皮尔逊相关性、肯德尔相关性和斯皮尔曼相关性。结果显示,学分绩点与预测模型所选的12个因素的相关性显著,故各个因素都与学生成绩紧密相关。
表1。
步骤四:根据某个学院各个专业的相关性,将所收集到的数据分为两个案例进行研究,使该模型更具有健壮性,更能适用于不同的专业。
步骤五:引用两个案例中得到的部分数据,训练极限学习机的学生学业成绩预测模型。
步骤六:根据步骤四所获得的基于极限学习机的成绩预测模型,代入案例剩余部分数据,预测学生的学业成绩并与真实值进行比对。
本预测模型所预测的学业成绩信息为学生一学期所得到的平均绩点,平均绩点由一学期某学生所学所有课程所对应绩点与对应学分求加权平均数得出,得到的数据根据学号次序依次存入易班数据。
其中,步骤一中,所研究的数据来源分为两部分,如图3所示,第一部分来自于易班平台数据,包括图书借阅数据和一卡通消费数据;第二部分来自于日常统计数据,包括宿舍卫生检查数据和学生课堂考勤数据。
图书借阅数据包括图书借阅频率、借阅图书类型,可以通过学校的图书管理系统中的数据库服务器中获取,将图书管理系统中的数据库服务器中存储的数据传输至计算机中,再对所收集到的数据与学号和专业一一对应,判定所借阅书籍是否为专业书籍并且对其数量进行记录。
学生一卡通消费数据包括学生一学期内的三餐消费频次和消费金额,可以通过易班平台数据库服务器中存储的数据传输至计算机中。
卫生数据来源于学生宿舍一学期的卫生检查情况,一学期学生宿舍卫生检查总数为确定数值,针对未表彰或通报批评的学生所在宿舍,其宿舍的所有成员卫生检查情况均记录为良,而对于有表彰或通报批评的宿舍,其宿舍成员在优、良或差的次数均根据检查情况相应改变。
学生课堂缺勤次数可以通过学生每节课前的点名签到情况获得。
各类学生学习成绩的影响因素如表2所示。
表2。
步骤二中,对收集到的数据进行预处理,分为三个部分,数据审核、数据筛选和数据排序,包括:(1)数据审核包括准确性审核、适用性审核以及及时性审核;(2)数据筛选包括三方面的内容:一是通过编写SQL语句,将所需要的数据从数据库(SQL Server)中筛选出来,导出后作为学生行为数据挖掘的原始数据。运用数据挖掘等理论和方法,进行深入分析;二是对学生基本信息表中无用字段内的数据信息进行清理,只保留研究所需的基本内容字段即可;三是进行空缺值处理,由于某些客观的原因,例如设备更新、系统更新或者人为输入数据时产生的数据结构混乱等,导致数据内含有一些空缺值。针对此现象,只能寻根溯源,将退学、休学或已毕业学生的整条数据信息从数据样本中删除。对于消费数据、缺勤数据和图书借阅数据,将对没有产生此类行为数据的学生记为零;(3)数据排序有助于对数据检查纠错,为重新归类或分组等提供依据。本文研究内容主要针对于数值型数据,排序只有两种,即递增和递减,排序后的数据也称为顺序统计量。
步骤四、五、六中,共选取了近两千个学生数据,案例一相应的样本设置为从已提取的学生行为特征数据中选取部分作为训练样本,另一部分用于测试;案例二相应的样本设置也为从已提取的学生行为特征数据中选取。
在验证数据处理的合理性中,本研究对比不同模型设置下的学分绩点预测,如图3至图7所示,比较分析可分为两部分,第一部分是预测所需的学分绩点以及影响因素,第二部分是给支持向量机(SVM)、BP神经网络(BPNN)、极限学习机(ELM)、基于粒子群优化的极限学习机(PSO-ELM)和深度极限学习机(DEEP-ELM)代入数据,进行比较五种方法的预测效果。
本发明未详细阐述的部分属于本领域公知技术。
应当说明的是,以上包含的本发明实例内容说明,是为了详解释本发明的技术特征。在不脱离本发明的前提下,所作出的若干改进和修饰也受本发明的保护,因此本发明的保护范围应当以本申请的权利要求所界定的内容为标准。
机译: 控制极限热控制极限,一种用于机动车辆的内燃机的确定方法,涉及选择扭矩模型之一以提供效率极限,并基于极限信息确定控制极限。
机译: 基于地形海拔回归模型的极限学习机地形参考导航的设计方法及具有该方法的计算机可读存储介质
机译: 通过粒子群优化算法优化电气系统的过程