首页> 中国专利> 变电站工程项目投资预测数据的确定方法

变电站工程项目投资预测数据的确定方法

摘要

本发明公开了一种变电站工程项目投资预测数据的确定方法,通过构建变电站工程项目投资预测指标体系,采集并处理变电站工程项目投资预测指标数据,构建基于XGBoost算法的变电站工程项目投资预测模型,向变电站工程项目投资预测模型输入变电站工程项目数据,根据变电站工程项目投资预测模型的输出结果准确确定变电站工程项目投资数据,其针对提升变电站工程投资预测的目标,建立变电站工程项目投资预测指标体系,构建了基于XGBoost的变电站工程投资预测模型,通过XGBoost预测模型得到的投资预测数据能为决策者提供较为准确的参考数据,支撑建设投资预测的优化辅助决策技术,解决变电站工程投资预测的数据与精确度协调问题。

著录项

说明书

技术领域

本发明涉及变电站工程项目投资决策技术领域,尤其涉及一种变电站工程项目投资预测数据的确定方法。

背景技术

输变电工程建设是电力基础设施建设的主要内容,也是国家电网建设投资的主要方向。而变电站工程项目是输变电工程中投资较为复杂的项目。投资预测是变电站工程前期决策阶段的主要任务,随着经济健康、快速、持续发展和全社会用电需求的增加,致使各大电力企业大规模建设发、输、配电网,以增加发电量来满足日益增长的社会用电需求,从而缓解当前我国电力供应的紧张局面。作为国民经济增加的重要源泉,变电站工程项目建设受到了广泛的关注。在电力行业规模扩大的进程中,国民经济高速发展及现代化的逐步实现,要求电能供应必须高度可靠,系统运行高度安全。作为输送电能的经脉,国家电网公司如何合理规划变电站工程项目,进行合理的投资预测与决策,满足人们日益增长的电能需求,是电网企业发展亟待解决的重要问题。

在目前的社会条件下,变电站工程项目建设呈现出如下几个特点:在部分地区变电站工程建设量巨大且建设任务十分艰巨。二是自然环境恶劣、施工难度大,项目工程投资难以控制。伴随着社会经济发展重心的转移,目前西南部或西部偏远地区承接了越来越多新开发的水电及风电项目,其自然环境的恶劣情况直接造成变电站工程施工难度增大,直接导致工程投资的提高;三是物权法的出台使变电站工程项目通道清理难度加大,直接导致项目造价控制更加困难。变电站工程项目的上述特点会直接影响到国家电网公司的投资成本。若要改变目前变电站工程建设现状,就必须改变其低效的工作模式,进行技术和管理创新。尤其是在变电站工程项目前期规划阶段对投资的把控程度的提高,强化工程投资预测与管控,提高投资控制“精益化”水平,最终提高国家电网公司经济和社会效益。综上,变电站工程项目投资预测的实现有利于提高变电站工程项目规划投资的效率和投资规模规划的精准性。

在变电站工程投资预测中常用的模型或方法有回归分析、神经网络模型、矩阵模型等。由于变电站工程投资中影响因素众多,且各影响因素之间呈现非线性关系,传统的统计模型方法如回归分析在应用于非线性数据时难以克服自身的局限,预测精度低。为了克服社会经济系统中存在的非线性、高维、小样本等问题,神经网络模型目前在项目投资预测过程中应用较多。神经网络模型虽然预测效果较好,但是其算法参数设置复杂、解释性差,尤其在小样本时易出现过学习、泛化能力差等问题。使得神经网络模型在进行项目投资预测的过程中,在保证一定精度的条件下,限制条件过多,这并不适用于变电站工程规划投资预测。

XGBoost是一种基于Boosting的新型集成学习算法。与传统的机器学习算法相比其具有运行速度快、泛化能力强、预测精度高、鲁棒性好等优点,此外XGBoost算法的模型可解释性较高,能用于小样本的预测,目前已经在径流预测、信用卡交易预测、故障监测等领域得到了广泛应用,但在变电站工程投资预测领域尚无深入应用。

发明内容

针对以上问题,本发明提出一种变电站工程项目投资预测数据的确定方法,其首先根据变电站工程项目属性构建电站项目投资预测指标体系,其次采集变电站工程项目投资预测的相关数据,然后基于XGBoost算法构建变电站工程项目投资预测模型并对模型的有效性进行评估。最后通过向变电站工程项目投资预测模型输入变电站工程项目数据,根据变电站工程项目投资预测模型的输出结果准确确定变电站工程项目投资数据。

为实现本发明的目的,提供一种变电站工程项目投资预测数据的确定方法,包括如下步骤:

S10,构建变电站工程项目投资预测指标体系;

S20,采集并处理变电站工程项目投资预测指标数据;

S30,构建基于XGBoost算法的变电站工程项目投资预测模型;

S40,向变电站工程项目投资预测模型输入变电站工程项目数据,根据变电站工程项目投资预测模型的输出结果确定变电站工程项目投资数据。

在一个实施例中,构建变电站工程项目投资预测指标体系包括:

S11,梳理变电站工程项目组成和建设过程,初步构建变电站工程项目投资预测指标体系;

S12,采用主成分分析法针对变电站工程项目投资预测指标体系提取变电站工程项目投资预测指标主成分;

S13,对变电站工程项目投资预测指标主成分进行修正,以确定最终的变电站工程项目投资预测指标体系。

在一个实施例中,采集并处理变电站工程项目投资预测指标数据包括:

S21,将变电站工程项目投资预测指标的中文名称转换为设定形式,以使计算机进行准确识别;

S22,采用回归插补的方法对转换后的数据中的缺失值进行填充;

S23,对填充后的数据进行异常值的识别,并剔除识别得到的异常值,得到变电站工程项目投资预测指标数据。

在一个实施例中,构建基于XGBoost算法的变电站工程项目投资预测模型包括:

S31,将变电站工程项目投资预测指标数据划分训练集和测试集,并设置比例为7:3;

S32,为了消除样本的划分方式及排序的随机性对预测结果的影响,在步骤S31所得的训练集的基础上,进一步将训练集划分为K份,其中N的取值范围满足N/K>3D,N表示样本数据量,D代表了特征数目;

S33,构建基于XGBoost算法的投资预测模型,XGBoost中使用的树集成模型以相加的方式进行训练,直到达到树的深度阈值时停止分裂,得到变电站工程项目投资预测模型;

S34,设置变电站工程项目投资预测模型的参数。

S35,将测试集输入变电站工程项目投资预测模型进行验证,基于变电站工程项目投资预测模型的预测结果与实际结果的对比对模型进行评估,在评估通过后,依据变电站工程项目投资预测模型的运行参数确定变电站工程项目投资预测模型。

上述变电站工程项目投资预测数据的确定方法,通过构建变电站工程项目投资预测指标体系,采集并处理变电站工程项目投资预测指标数据,构建基于XGBoost算法的变电站工程项目投资预测模型,向变电站工程项目投资预测模型输入变电站工程项目数据,根据变电站工程项目投资预测模型的输出结果准确确定变电站工程项目投资数据,其针对提升变电站工程投资预测的目标,建立变电站工程项目投资预测指标体系,构建了基于XGBoost的变电站工程投资预测模型,通过XGBoost预测模型得到的投资预测数据能为决策者提供较为准确的参考数据,是支撑建设投资预测优化的辅助决策技术,能解决变电站工程投资预测的数据与精确度协调问题,有助于提升变电站工程投资决策的精准度,支撑电网企业高质量发展。

附图说明

图1是一个实施例的变电站工程项目投资预测数据的确定方法流程图;

图2是一个实施例的基于XGBoost算法的变电站工程项目投资预测模型总体流程图;

图3是一个实施例的变电站工程项目施工流程图;

图4是一个实施例的变电站投资预测初步指标体系图;

图5是一个实施例的变电站工程投资预测指标筛选主成分分析主要流程图;

图6是一个实施例的变电站工程投资预测最终指标体系图;

图7为一个实施例的变电站工程投资预测指标数据处理的流程图;

图8为一个实施例的训练集的K折划分过程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

传统的统计模型方法如回归分析在应用于对非线性数据时难以克服自身的局限,预测精度低,而神经网络模型虽然预测效果较好,但是算法参数设置复杂、解释性差,尤其在小样本时易出现过学习、泛化能力差等问题。变电站工程是电力基础设施的重要组成部分之一,变电站工程具有投资数额巨大、产品结构单一、项目周期长等特点。其投资决策受到多维度因素的影响,在新电改的背景下,有效的进行变电站投资预测,对实现电力基础设施高效益发展至关重要。本发明针对变电站工程项目投资预测工作,详细了解了变电站工程项目的投资过程和项目属性,构建了变电站工程项目投资预测指标体系,基于XGBoost算法构建了变电站工程项目投资预测模型,有助于提升变电站工程项目投资预测的精度,能为决策者提供更为准确的参考信息,实现基础设施项目高效益化投资。

参考图1所示,图1为一个实施例的变电站工程项目投资预测数据的确定方法流程图,包括如下步骤:

S10,构建变电站工程项目投资预测指标体系。

S20,采集并处理变电站工程项目投资预测指标数据。

S30,构建基于XGBoost算法的变电站工程项目投资预测模型。

S40,向变电站工程项目投资预测模型输入变电站工程项目数据,根据变电站工程项目投资预测模型的输出结果确定变电站工程项目投资数据。

在一个实施例中,步骤S40包括如下步骤:

步骤S41,获取步骤S10中所得指标的客观状态数据。按照步骤S10得到得指标体系,依据变电站工程项目客观情况,确定指标客观状态数据。

步骤S42,将步骤S41获取的指标客观状态数据输入步骤S30所得到的模型,得到投资预测数据。

上述变电站工程项目投资预测数据的确定方法,通过构建变电站工程项目投资预测指标体系,采集并处理变电站工程项目投资预测指标数据,构建基于XGBoost算法的变电站工程项目投资预测模型,向变电站工程项目投资预测模型输入变电站工程项目数据,根据变电站工程项目投资预测模型的输出结果准确确定变电站工程项目投资数据,其针对提升变电站工程投资预测的目标,建立变电站工程项目投资预测指标体系,构建了基于XGBoost的变电站工程投资预测模型,通过XGBoost预测模型得到的投资预测数据能为决策者提供较为准确的参考数据,是支撑建设投资预测优化的辅助决策技术,能解决变电站工程投资预测的数据与精确度协调问题,有助于提升变电站工程投资决策的精准度,支撑电网企业高质量发展。

在一个实施例中,构建变电站工程项目投资预测指标体系包括:

S11,梳理变电站工程项目组成和建设过程,初步构建变电站工程项目投资预测指标体系;

S12,采用主成分分析法针对变电站工程项目投资预测指标体系提取变电站工程项目投资预测指标主成分;

S13,对变电站工程项目投资预测指标主成分进行修正,以确定最终的变电站工程项目投资预测指标体系;具体地,可以进行专家访谈修正确定变电站工程项目投资预测最终指标体系。

在一个实施例中,采集并处理变电站工程项目投资预测指标数据包括:

S21,将变电站工程项目投资预测指标的中文名称转换为设定形式,以使计算机进行准确识别。上述设定形式可以为英文字母加数字的形式;该步骤进行特征名称转换,将变电站工程项目投资预测指标的中文名称转换为英文字母加数字的形式,方便计算机的识别和处理。

S22,采用回归插补的方法对转换后的数据中的缺失值进行填充。该步骤缺失值处理。通常直接采集得到的数据往往存在缺失值较多,存在噪声数据等问题。因此本步骤采用回归插补的方法对原始数据中的缺失值进行填充,以便更有效的利用这些数据。具体方法是:把缺失属性作为因变量,其他相关属性作为自变量,利用他们之间的关系建立回归模型的来预测缺失值,以此完成缺失值插补的方法。

S23,对填充后的数据进行异常值的识别,并剔除识别得到的异常值,得到变电站工程项目投资预测指标数据。该步骤异常值的识别与处理,异常值即通常所称的“离群点”,通常由于录入错误等原因造成,异常值的识别办法是:对于连续值,根据

在一个实施例中,构建基于XGBoost算法的变电站工程项目投资预测模型包括:

S31,将变电站工程项目投资预测指标数据划分训练集和测试集,并设置比例为7:3。该步骤进行训练集和测试集划分,在构建基于XGBoost算法的变电站工程项目投资预测模型前,需要将数据集划分训练集和测试集。具体可以借助Python中sklearn包对步骤2中处理得到的数据集进行划分。

S32,为了消除样本的划分方式及排序的随机性对预测结果的影响,在步骤S31所得的训练集的基础上,进一步将训练集划分为K份,其中N的取值范围满足N/K>3D,N表示样本数据量,D代表了特征数目。

S33,构建基于XGBoost算法的投资预测模型,XGBoost中使用的树集成模型以相加的方式进行训练,直到达到树的深度阈值时停止分裂,得到变电站工程项目投资预测模型;

S34,设置变电站工程项目投资预测模型的参数。

S35,将测试集输入变电站工程项目投资预测模型进行验证,基于变电站工程项目投资预测模型的预测结果与实际结果的对比对模型进行评估,在评估通过后,依据变电站工程项目投资预测模型的运行参数确定变电站工程项目投资预测模型。该步骤将单独的测试集数据用于对模型进行验证,基于模型预测结果与实际结果的对比对模型进行评估。基于XGBoost算法的变电站工程项目投资预测模型评估指标主要包括平均绝对误差(MAE),平均绝对百分比误差(MAPE)以及拟合优度(R

在一个实施例中,上述变电站工程项目投资预测数据的确定方法也可以参考图2所示,其首先根据各地市电力基础数据源建立变电站工程数据集并划分数据类型,接着建立变电站工程的投资预测指标体系,随后采集并处理变电站工程投资预测指标的相关数据,最后基于XGBoost算法,构建变电站工程投资预测模型,并对模型的准确性进行了评估与验证,其主要包括如下过程:

步骤1)构建变电站工程项目投资预测指标体系;

步骤2)采集并处理变电站工程项目投资预测指标数据;

步骤3)构建基于XGBoost算法的变电站工程建设投资预测模型;

步骤4)输入变电站工程项目数据,确定变电站工程项目投资数据。

下面结合图2-图8对前述各步骤的具体步骤进行说明。

步骤1)构建变电站工程项目投资预测指标体系。具体地,步骤1的实现包括以下步骤:

步骤1-1)梳理变电站工程项目组成和建设过程,初步构建变电站工程项目投资预测指标体系。变电站工程项目主要由建筑工程和电气设备安装工程两部分组成。建筑工程主要包含建筑物和构筑物,电气设备安装工程主要包含一次设备和二次设备安装以及试验和调试等。其具体的施工过程如图3所示。因此,本发明将变电站的投资预测指标分为电气设备和建筑工程两类。建筑工程类指标主要反应建筑的组成、构造、建材用量和地基处理方式等主要内容。而电气设备类指标主要反应电气设备的组成、种类、数量、接配电型式等内容。经过初步筛选,构建出变电站投资预测初步指标体系如图4所示。

步骤1-2)采用主成分分析法提取变电站工程项目投资预测指标主成分。具体地,步骤1-2)的实现包括以下步骤:

步骤1-2-1)构建原始数据矩阵及数据标准化。假设有m个变电站工程,每个变电站工程有n个投资预测指标。首先构建原始数据矩阵X:

然后对数据进行标准化,消除量纲和数量级对评价的影响,本发明采用Z-score的方法进行标准化:

其中

步骤1-2-2)计算相关系数矩阵及特征向量组。根据步骤1-2-1)标准化后的矩阵计算相关系数矩阵R:

其中r

步骤1-2-3)计算方差累积贡献率,提取主成分并计算权重。得到特征向量后,根据方差累积贡献率的大小确定提取前p个主成分,方差累积贡献率为:

则提取的主成分的权重值可以根据下式计算得到:

下表1为根据主成分分析法筛选出的建筑工程和电气设备部分的关键指标及对应权重。

表1变电站工程投资预测指标体系主成分

步骤1-3:进行专家访谈修正确定变电站工程项目投资预测最终指标体系。基于上述表1的初步指标,进行专家访谈,对指标进行修正。本专利增加变电站基础特征类指标,其中包含的内容为:额定电压等级、建设时间、建设地点、变电站型式、全站建筑面积、建设性质和是否为智能化变电站等几个变电站基础属性。在电气设备部分,去掉对投资影响不大的铜排和扁钢用量,增加主变压器的台数和容量,高压侧配电形式、接线型式、断路器台数和母线PT间隔,桥接线和主变进出线或出线间隔等对总投资影响较大的指标。在建筑工程部分,删除对总投资影响较小的电缆沟,增加建筑工程中的地基处理方案、主控(综合楼)建筑面积、钢构和支架等用钢量、主变及进出线、基础混凝土量等对投资影响较大的指标。最终构建了如图4所示的变电站工程项目投资预测指标体系。

步骤2)采集并处理变电站工程建设投资预测指标数据,得出适合进行建模的数据结构,如图5所示。具体地,步骤2)的实现包括以下步骤:

步骤2-1)特征名称转换。将变电站工程项目投资预测指标的中文名称转换为英文字母加数字的形式,方便计算机的识别和处理;其中,对应的变电站工程投资预测最终指标体系图可以参考图6所示,变电站工程投资预测指标数据处理的流程图可以参考图7所示。

对变电站工程项目投资预测指标采用字母加数字的组合方式进行标签代号设置。具体如下表2所示。

表2变电站工程项目投资预测指标体系转换表

步骤2-2)缺失值处理。通常直接采集得到的数据往往存在缺失值较多,存在噪声数据等问题。因此本步骤采用回归插补的方法对原始数据中的缺失值进行填充,以便更有效的利用这些数据。具体方法是:把缺失属性作为因变量,其他相关属性作为自变量,利用他们之间的关系建立回归模型的来预测缺失值,以此完成缺失值插补的方法。

步骤2-3)异常值的识别与处理。异常值即通常所称的“离群点”,通常由于录入错误等原因造成。异常值的识别办法是:对于连续值,根据

步骤3)构建基于XGBoost算法的变电站工程项目投资预测模型。具体地,步骤3)的实现包括以下步骤:

步骤3-1)训练集和测试集划分。在构建基于XGBoost算法的变电站工程项目投资预测模型前,需要将数据集划分训练集和测试集,并设置比例为7:3。借助Python中sklearn包对步骤2中处理得到的数据集进行划分;

表3数据集划分

步骤3-2)训练集的K折划分。为了消除样本的划分方式及排序的随机性对预测结果的影响,在步骤3-1)所得的训练集的基础上,进一步将训练集划分为K个互斥子集,每次选择(k-1)个子集作为训练集,1个子集作为测试集,如图8所示。其中N的取值范围应满足N/K>3D,其中N代表了样本数据量,D代表了特征数目。

步骤3-3)基于XGBoost算法的投资预测模型的构建。XGBoost中使用的树集成模型以相加的方式进行训练,直到满足停止条件。本发明采用Python软件,构建基于XGBoost算法的变电站工程项目投资预测模型。下表4给出了Python软件的代码。基于XGBoost算法的变电站工程项目投资预测模型构建包括5个步骤:

①根据选定的样本划分方式确定训练集;

②以CART分类树作为基学习器,定义目标函数与增益函数;

③通过计算最优树结构与最佳分裂节点,确定第t轮迭代添加的树f

④完成迭代过程,获取训练所得全部分类树

⑤以加法形式集成所有树模型,得到XGBoost预测模型。

表4基于XGBoost算法的变电站工程项目投资预测模型的Python代码

步骤3-4)模型参数的设置与调整优化。本步骤设置了基于XGBoost算法的变电站工程项目投资预测模型的参数。参数设置如表5所示,具体内容如下:

Booster是选择每次迭代的模型,有两种选择:gbtree和gbliner,由于gbtree的性能比gbliner要好,因此本发明选择gbtree作为迭代模型。

learning_rate为学习率,范围[0,1]。该参数越小,计算速度越慢;该参数越大,有可能无法收敛。本发明取0.005。

max_depth为每颗树的最大深度,范围[0,+∞)。该参数越大,越容易出现过拟合。max_depth越大,模型会学到更具体更局部的样本。本发明取7。

n_estimators是XGBoost中树的个数,数量越多模型性能越好,但当数量到一定程度,模型性能提升有限,反而会拖累算法的速度。本发明中取5000。

colsample_bytree为列采样率,一般是特征采样率,通过对每棵树的生成用的特征采用类似于随机森林的列采样,范围(0,1]。本发明取1。

min_child_weight为每个叶子里面的最小权重和,范围[0,+∞)。该参数越大,算法越保守,越不容易过拟合。本发明取11。

lambda为L2正则化参数,用来控制XGBoost的正则化部分。范围[0,+∞)。该参数越大,越不容易过拟合。本发明取1。

gamma为损失阈值,是控制叶子个数的参数,gamma指定了节点分裂所需的最小损失函数下降值,范围[0,+∞)。该参数越大,算法越保守越不容易过拟合。本实施例取0。

表5基于XGBoost算法的变电站工程项目投资预测模型参数设置

步骤3-5)基于测试集对XGBoost投资预测模型评估。将单独的测试集数据用于对模型进行验证,基于模型输出的预测结果与实际结果的对比对模型进行评估。基于XGBoost算法的变电站工程项目投资预测模型评估指标主要包括拟合优度(R

本模型的第一个评估指标是拟合优度(R

R

MAE的取值范围为范围[0,+∞),预测值与真实值完全吻合时等于0,即完美模型;误差越大,该值越大。MAPE是MAE的变式,它是一个百分比值,因此比其他统计量更容易理解。其取值范围[0,+∞),当MAPE为0%表示完美模型。

基于XGBoost算法的变电站工程项目投资预测模型评估指标主要是上文所描述的拟合优度(R

表6基于XGBoost算法的变电站工程项目投资预测模型评估指标

步骤4)输入变电站工程项目数据,确定变电站工程项目投资数据。具体地,步骤4)的实现包括以下步骤:

步骤4-1)获取步骤1)中所得指标的客观状态数据。按照步骤1)得到得指标体系,依据变电站工程项目客观情况,确定指标客观状态数据。

步骤4-2)将步骤4-1)获取的指标客观状态数据输入步骤3)所得到的模型,得到投资预测数据。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

需要说明的是,本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换,以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本申请实施例的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号