技术领域
本发明属于信息化领域,涉及一种基于支持向量机的建筑智能化工程投资预测方法。
背景技术
建筑智能化工程投资预测是控制工程全过程造价的限额,是工程资金储备管理、项目建设系统内容以及项目经济效益分析的重要指标。能快速、准确地进行投资造价预测,对于提高项目工作效率、加强工程造价管理以及提升项目经济效益都有着重要意义。国内对建筑智能化工程投资预测的相关研究较少,多数项目信息管理也停留在传统方式,项目信息交流很难实现。传统的工程投资预测方法一般采用简单函数回归模型、最小二乘法、定额计算、模糊数学、灰色预测等方法。以上投资预测方法,数学原理简单、预测速度快,但对于建设系统繁多、项目情况复杂的建筑智能化工程投资估算,预测质量参差不齐,准确性、有效性、实用性都难以保证。
近年来,机器学习技术逐步在工程造价预测领域中得到运用,对于数据挖掘与模型预测,该技术相比传统预测方法具有更高的可靠性与准确度。随着对机器学习技术的研究逐步深入,决策树、人工神经网络、支持向量机等算法技术,在建筑工程造价领域已经有比较广泛的应用。
目前的机器学习技术在建筑行业的造价预测主要应用在建筑、道路等工程中。由于建筑智能化工程兴起较晚,相关研究较少,还没有成熟的机器学习技术方案应用于建筑智能化工程的造价预测。智能化工程的设计、施工、造价等历史数据较少,且项目建设内容、建设地区、建筑类型等因素不同,造价差异较大的现状,导致建筑智能化工程具有样本数据量小、影响因子多、数据非线性回归等特点,使用传统的机器学习技术,如人工神经网络,会出现泛化能力低、造价预测准确度低的情况。
发明内容
有鉴于此,本发明的目的在于提供一种基于支持向量机的建筑智能化工程投资预测方法,通过支持向量机建立回归算法模型,对设计阶段的建筑智能化工程造价进行合理预测,预测出较准确的新建或改建工程投资额,为前期项目工作提供经济指标与参考资料。
为达到上述目的,本发明提供如下技术方案:
一种基于支持向量机的建筑智能化工程投资预测方法,该方法包括以下步骤:
(1)支持向量机回归算法应用思路;
(2)特征向量的选取;
(3)样本数据采集与预处理;
(4)造价预测模型搭建、模型训练与预测。
可选的,所述步骤(1)具体为:
建筑智能化工程投资预测模型看作非线性回归函数问题:第i年,工程造价影响因子指标值为自变量X
1)确定工程造价影响因子,获取造价数据,提取工程造价影响因子指标值,对数据进行预处理;
2)选择一个合适的SVR函数类型、合理的核函数与核参数,选取ε-SVR回归函数模型与径向高斯核函数代入回归方程,用交叉验证与网格搜索法,获得最优参数(C,λ);
径向高斯核函数:K(x
3)将最优(C,λ)参数代入预测模型,对样本数据进行训练;
4)使用训练出的预测模型,通过测试集验证预测结果的准确性;
其中:支持向量个数为n
可选的,所述步骤(2)具体为:
选择五项特征向量,作为造价模型特征向量:建设地区x
其中建设地区、建筑类型不同类别分别量化为自然数字;报价指数由建设时间所确定,根据建筑智能化行业专家意见整合,人工造价、设备造价指数分别按照0.45与0.55的权重计算,参照《2018年重庆市建设工程计价定额》与建设工程造价数据进行对比计算得到;“建设需求”预测指标量化,由于建筑智能化专业的建设系统种类繁多,影响预测结果准确性;依据《智能建筑设计标准(GB50314-2015)》中对于不同类型建筑,均含“应建项”、“宜建项”、“可建项”三个系统建设方案;
将建设需求简化为:基本型,即包括应建项;
拓展型,即包括应建项、宜建项;
高端型,即包括应建项、宜建项、可建项。
可选的,所述步骤(3)具体为:
将样本数据归一化至[0,1]范围内,计算公式如下:
其中,i=1,2,…n;X
可选的,所述步骤(4)具体为:
1)SVR函数类型选择
在支持向量机的回归模型中,常用nu-SVR与ε-SVR两种类型函数;其中nu-SVR需事先确定支持向量的数量,需要慢慢调整ε数值得到最优模型,花费时间较多;ε-SVR需事先确定ε数值,即损失函数的值,预测模型函数有很好的表现;
2)核函数选择
在SVR模型中,线性核函数linear没有映射至高维空间,用于线性回归问题;多项式核函数Poly参数较多,使模型的复杂度变高;径向高斯函数RBF在解决非线性回归问题表现较好,在特征维数少、样本数量正常时,可取度较高;Sigmoid函数生成神经网络,泛化能力相对RBF较弱,部分参数无效;
3)寻参方法及参数优化
k折交叉验证,即对指定范围内的每一组(C,λ)进行计算,得到最优解;
4)模型训练与测试
对于限额误差参数ε的确定,使用80组数据作为训练样本建立预测模型,取预测表现最好的ε值;其中确定系数
当ε取0.5时,模型拟合度高;通过90组数据作为训练样本,通过网格搜索算法与交叉验证取得最优参数(C,λ),其中C=16,λ=0.3125,n
5)预测效果分析
预测模型的预测值与实际值的相对误差小于等于10%时,则说明该模型计算准确度可靠。
本发明的有益效果在于:
本发明所涉及的支持向量机建立回归算法,能够对设计阶段的建筑智能化工程造价进行合理预测,预测出较准确的新建或改建工程投资额,为前期项目工作提供经济指标与参考资料,现目前对于工程造价管理的技术应用,包括神经网络、支持向量机等机器学习技术主要应用于建筑、道路、隧道桥梁等工程领域,并未涉及对不同业态的建筑智能化专项工程的安防、照明、机房、楼宇控制等系统的造价管理、预测;本发明弥补了机器学习技术在建筑智能化工程造价管理方面的研究空白。同时,建筑智能化工程造价领域的研究,主要停留在成本控制、施工管控等,本发明为设计阶段的工程项目管理提供了辅助及参考资料,不仅能够方便业主、设计方、施工方进行项目决策,同时还能够节约人力、物力,带来可观的经济效益。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为模型预测流程图;
图2为SVR预测模型结果对比图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本技术方案旨在提供一种使用支持向量机回归算法的建筑智能化工程造价预测方法,解决建筑智能化工程样本数据量小、影响因子多等因素导致的造价预测不规范、不准确的问题。
本发明提供的建筑智能化工程造价预测方法包括:(1)支持向量机回归算法应用思路(2)特征向量的选取;(3)样本数据采集与预处理;(4)造价预测模型搭建、模型训练与预测。
(1)支持向量机回归算法应用思路
建筑智能化工程投资预测模型可看作非线性回归函数问题:第i年,工程造价影响因子指标值为自变量X
1)确定工程造价影响因子,获取造价数据,提取工程造价影响因子指标值,对数据进行预处理;
2)选择一个合适的SVR函数类型、合理的核函数与核参数,本发明选取ε-SVR回归函数模型与径向高斯核函数代入回归方程,用交叉验证与网格搜索法,获得最优参数(C,λ);
径向高斯核函数:K(x
3)将最优(C,λ)参数代入预测模型,对样本数据进行训练。
4)使用训练出的预测模型,通过测试集验证预测结果的准确性。
其中:支持向量个数为n
(2)特征向量的选取
为准确选取建筑智能化工程造价预测指标,本次查阅大量文献资料,总结出数十项预测指标;根据建筑智能化专项设计施工项目经验,同时通过问卷调查的方式,整理归纳50位行业专家意见,用问卷中选择率最高的五项特征向量,作为本发明的造价模型特征向量:建设地区x
其中建设地区、建筑类型不同类别分别量化为自然数字;报价指数由建设时间所确定,根据建筑智能化行业专家意见整合,人工造价、设备造价指数分别按照0.45与0.55的权重计算,参照《2018年重庆市建设工程计价定额》与建设工程造价数据进行对比计算得到;“建设需求”预测指标量化,由于建筑智能化专业的建设系统种类繁多,影响预测结果准确性;依据《智能建筑设计标准(GB50314-2015)》中对于不同类型建筑,均含“应建项”、“宜建项”、“可建项”三个系统建设方案;将建设需求简化为:基本型(包括应建项)、拓展型(包括应建项、宜建项)、高端型(包括应建项、宜建项、可建项),方便对其进行数据预处理。
(3)样本数据采集与预处理
本文从近年来重庆及周边地区已经竣工的建筑智能化工程项目,包括设计单位已竣工项目的资料、重庆市公共资源交易中心招投标项目资料等资源中选取90组数据,数据涵盖不同年份、地区、建筑类型、建设需求以及建筑面积。根据预测指标量化标准(如表1所示),存入动态数据库,作为本文投资预测模型的原始数据(如表2所示);在预测模型工作时,数据将被调用。
表1 工程特征量化标准
表2 样本原始数据
为避免输入数据出现在程序函数的饱和区,改善程序中数据收敛速度和数据量级差异对预测结果的影响,降低预测误差,输入数据量化后需要预处理。数据规范化(归一化)是数据预处理常用方法,其中最大最小值法可灵活指定规范化之后的取值区间,消除不同属性之间的权重差异,将样本数据归一化至[0,1]范围内,计算公式如下:
其中,i=1,2,…n。X
(4)造价预测模型搭建、训练与预测结果检验
1)SVR函数类型选择
在支持向量机的回归模型中,常用nu-SVR与ε-SVR两种类型函数。其中nu-SVR需事先确定支持向量的数量,需要慢慢调整ε数值(优化参数)得到最优模型,花费时间较多;ε-SVR需事先确定ε数值,即损失函数(误差限额)的值,能够快速、有效地确定拟合函数的带宽、计算误差等,预测模型函数有很好的表现;故使用ε-SVR。
2)核函数选择
在SVR模型中,线性核函数linear没有映射至高维空间,用于线性回归问题;多项式核函数Poly参数较多,使模型的复杂度变高;径向高斯函数RBF在解决非线性回归问题表现较好,在特征维数少、样本数量正常时,可取度较高;Sigmoid函数生成神经网络,泛化能力相对RBF较弱,部分参数无效。由于建筑智能化工程样本数据少,且本文造价预测指标较少,故使用RBF核函数。
3)寻参方法及参数优化
由前文可知,支持向量机(C,λ)参数对模型预测表现有关键影响,在投资预测模型中,我们运用常用的k折交叉验证的方法对指定范围内的每一组(C,λ)进行计算,得到最优解。常用的(C,λ)参数优化方法有三种。遗传神经网络GA算法比较复杂,泛化能力弱;粒子群优化算法PSO是启发式算法,不用遍历网格内所有点,也能找到全局最优解,但容易陷入局部最优;网格搜索Grid-search算法是通过尝试范围内遍历所有可能的(C,λ),在交叉验证程序前加入两层循环,复杂度不高,但准确度提升明显。故使用网格搜索算法优化(C,λ)参数。
4)模型训练与测试
对于限额误差参数ε的确定,使用80组数据作为训练样本建立预测模型,取预测表现最好的ε值。其中确定系数
如表3所示,当ε取0.5时,模型拟合度高,有最好的表现。通过90组数据作为训练样本,通过网格搜索算法与交叉验证取得最优参数(C,λ),其中C=16,λ=0.3125,n
附表3 ε变化值对应的模型信息
5)预测效果分析
本文建立的建筑智能化投资预测模型主要针对智能化工程前期项目设计阶段所进行的造价预测,因此预测模型的预测值与实际值的相对误差小于等于10%时,则说明该模型计算准确度可靠。
从图2中的测试结果来看,红色曲线为真实值,蓝色曲线为预测值。本算法对于建筑智能化工程造价预测准确度较高,且泛化性能较强。个别样本,如项目编号2,误差相对较大的原因是训练样本与该样本的相似性不足;随预测模型中数据和知识的再获取,预测误差将进一步缩小,对于预测指标在中等维度、各指标间影响关系复杂的建筑智能化工程,该模型具有较好的适用性。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
机译: 基于神经网络和支持向量机的红潮预测方法
机译: 基于支持向量机的蛋白质相互作用预测方法
机译: 一种基于案例推理的技术预测方法,特别是水泥窑法中的传感器预测方法和装置