首页> 中国专利> 测绘市场项目智能化获取方法

测绘市场项目智能化获取方法

摘要

本申请公开了一种测绘市场项目智能化获取方法。该测绘市场项目智能化获取方法包括以下步骤:接收中标项目的数据集;从数据集中的每个中标项目中提取第一特征属性,其中,所述第一特征属性至少包括中标内容、单位、金额及时间属性;通过训练后的项目筛选模型,根据第一特征属性从数据集中筛选出目标项目集。本申请解决了由于人工筛选出测绘中标项目造成的费时费力,且数据时效性得不到保障的技术问题。

著录项

  • 公开/公告号CN112990845A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 江苏省测绘地理信息局信息中心;

    申请/专利号CN202110006800.4

  • 发明设计人 许瑞栋;徐荣煜;潘宸;严瑞;

    申请日2021-01-04

  • 分类号G06Q10/10(20120101);G06Q30/08(20120101);G06K9/62(20060101);G06F40/126(20200101);G06F40/242(20200101);G06F40/30(20200101);

  • 代理机构11541 北京知果之信知识产权代理有限公司;

  • 代理人卜荣丽

  • 地址 210000 江苏省南京市北京西路75号

  • 入库时间 2023-06-19 11:29:13

说明书

技术领域

本申请涉及测绘项目数据处理领域,具体而言,涉及一种测绘市场项目智能化获取方法。

背景技术

经济全球化、社会信息化的深入发展,推动了测绘装备和测绘信息技术的高速发展,吸引了大量技术人员和企业加入到测绘地理信息行业,行业规模的快速增长,既给测绘地理信息行业的发展带来了蓬勃生机,同时也给测绘地理信息主管部门的管理带来了全新挑战。与此同时,随着大数据、人工智能、云计算等现代科技的高速发展,近年来,人们已经能够即时、安全地取得来自多方的数据,如何有效利用大数据资源,进行高效监管是亟待各地行政主管部门解决的关键问题。

测绘地理信息项目作为测绘活动管理的重要抓手,无论是对测绘资质 审核或是测绘成果质量监督检查,都具有重要意义。只有准确掌握测绘市 场动态,才能更为有效形成市场自律、政府监管、社会监督互为支撑的协 同监管格局,切实管出公平、管出效率、管出活力,促进提高市场主体竞 争力和市场效率,推动经济社会持续健康发展。

招标、投标作为测绘市场行为的重要一环,能够充分反映实行市场招标、政府采购项目的基本情况,因此,及时掌握招投标信息将能有效起到项目源头管控的作用。由于招投标项目繁杂,只有对信息进行有效筛选,去除与测绘无关、规模较小以及出现流标等情况的项目,才能更有针对性的进行监管。然而经统计,截止2020年12月,当年仅江苏省公开的招投标项目信息就有近200万条,其中与测绘相关的近10000余条,如果仅依靠人工筛选,既费时费力,又无法保证数据的时效性。

针对相关技术中人工筛选出测绘中标项目造成的费时费力,且数据时效性得不到保障的问题,目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种测绘市场项目智能化获取方法,以解决人工筛选出测绘中标项目造成的费时费力,且数据时效性得不到保障的问题。

为了实现上述目的,根据本申请的一个方面,提供了一种测绘市场项目智能化获取方法。

根据本申请的测绘市场项目智能化获取方法包括以下步骤:接收中标项目的数据集;从数据集中的每个中标项目中提取第一特征属性,其中,所述第一特征属性至少包括中标内容、单位、金额及时间属性;通过训练后的项目筛选模型,根据第一特征属性从数据集中筛选出目标项目集。

进一步的,接收中标项目的数据集包括:采用数据接口从第三方招投标信息公示平台获取中标项目的数据集。

进一步的,通过训练后的项目筛选模型,根据第一特征属性从数据集中筛选出目标项目集包括:将特征属性输入项目筛选模型;项目筛选模型根据第一特征属性判断对应的第一中标项目是否有效;如果有效,则将第一中标项目筛选至目标项目集中。

进一步的,通过训练后的项目筛选模型,根据第一特征属性从数据集中筛选出目标项目集之后还包括:将目标项目集通过短信或数据接口推送至监管端。

进一步的,项目筛选模型的训练包括:接收中标项目的样本数据集;从样本数据集中的每个中标项目中提取第二特征属性,其中,所述第二特征属性至少包括中标内容、单位、金额及时间属性;对第二特征属性执行文本截断、填充及编码操作,得到向量化的映射词典文件;根据样本数据集执行训练、测试及验证操作,得到权值和偏差;基于映射词典文件、权值和偏差得到项目筛选模型。

为了实现上述目的,根据本申请的另一方面,提供了一种测绘市场项目智能化获取装置。

根据本申请的测绘市场项目智能化获取装置包括:接收模块,用于接收中标项目的数据集;提取模块,用于从数据集中的每个中标项目中提取第一特征属性,其中,所述第一特征属性至少包括中标内容、单位、金额及时间属性;筛选模块,用于通过训练后的项目筛选模型,根据第一特征属性从数据集中筛选出目标项目集。

进一步的,通过训练后的项目筛选模型,根据第一特征属性从数据集中筛选出目标项目集之后还包括:将目标项目集通过短信或数据接口推送至监管端。

进一步的,项目筛选模型的训练包括:接收中标项目的样本数据集;从样本数据集中的每个中标项目中提取第二特征属性,其中,所述第二特征属性至少包括中标内容、单位、金额及时间属性;对第二特征属性执行文本截断、填充及编码操作,得到向量化的映射词典文件;根据样本数据集执行训练、测试及验证操作,得到权值和偏差;基于映射词典文件、权值和偏差得到项目筛选模型。

为了实现上述目的,根据本申请的另一方面,提供了一种存储介质。

根据本申请的存储介质,用于存储所述的测绘市场项目智能化获取方法。

为了实现上述目的,根据本申请的另一方面,提供了一种服务器。

根据本申请的服务器,包括:存储器和处理器,所述处理器用于执行存储在所述存储器的所述的测绘市场项目智能化获取方法。

在本申请实施例中,采用特征属性提取配合模型预测的方式,通过接收中标项目的数据集;从数据集中的每个中标项目中提取第一特征属性,其中,所述第一特征属性至少包括中标内容、单位、金额及时间属性;通过训练后的项目筛选模型,根据第一特征属性从数据集中筛选出目标项目集;达到了特征属性提取配合模型预测目标项目集替代人为筛选的目的,从而实现了节省时间,降低人力成本,且能够保证数据时效性的技术效果,进而解决了由于人工筛选出测绘中标项目造成的费时费力,且数据时效性得不到保障的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的测绘市场项目智能化获取方法的流程示意图;

图2是根据本申请实施例的测绘市场项目智能化获取装置的结构示意图;

图3是根据本申请实施例的存储介质的结构示意图;

图4是根据本申请实施例的服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。

并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本发明中的具体含义。

此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

根据本发明实施例,提供了一种测绘市场项目智能化获取方法,如图1 所示,该方法包括如下的步骤S101至步骤S103:

步骤S101、接收中标项目的数据集;

根据本发明实施例,优选的,接收中标项目的数据集包括:

采用数据接口从第三方招投标信息公示平台获取中标项目的数据集。

本实施例中,服务器可以通过数据接口接入第三方招投标信息公示平台而建立通信,如此,服务器可以主动或被动在该平台上获取所有中标项目形成的数据集。优选的,服务器为周期性获取该时间段内的所有中标项目形成的数据集。

步骤S102、从数据集中的每个中标项目中提取第一特征属性,其中,所述第一特征属性至少包括中标内容、单位、金额及时间属性;

本实施例中,每个中标项目中都包含相应的信息,采用文字识别技术结合语义识别能够对中标项目中的内容进行识别,根据识别结果确定每个中标项目的内容,并且将识别出来的中标内容、单位、金额及时间属性作为某个中标项目所对应的第一特征属性;为中标项目筛选提供输入参数保障。

步骤S103、通过训练后的项目筛选模型,根据第一特征属性从数据集中筛选出目标项目集。

根据本发明实施例,优选的,通过训练后的项目筛选模型,根据第一特征属性从数据集中筛选出目标项目集包括:

将特征属性输入项目筛选模型;

项目筛选模型根据第一特征属性判断对应的第一中标项目是否有效;

如果有效,则将第一中标项目筛选至目标项目集中。

本实施例中,训练后的项目筛选模型结合第一特征属性具有判断某个中标项目(即第一目标项目)是否符合标准的作用;具体的,项目筛选模型结合第一特征属性中的中标内容属性,可以判断出中标内容是否流标,从而能够筛除流标的项目;项目筛选模型结合第一特征属性中的中标单位属性,可以判断出中标单位是否和测绘相关,从而能够进一步筛选初步筛选出的中标项目;项目筛选模型结合第一特征属性中的中标金额属性,可以判断出中标金额是否过小,从而能够筛除规模较小的中标项目;项目筛选模型结合第一特征属性中的中标时间属性,可以判断出中标时间是否超期,从而能够筛除超期的中标项目。每个中标项目通过以上的所有判断就筛选至目标项目集中。

如此实现了中标项目的多维度筛选,使留下的目标项目集中的中标项目更为精确,更为符合要求,能够直接运用于监管;达到了特征属性提取配合模型预测目标项目集替代人为筛选的目的,从而实现了节省时间,降低人力成本,且能够保证数据时效性的技术效果。

从以上的描述中,可以看出,本发明实现了如下技术效果:

在本申请实施例中,采用特征属性提取配合模型预测的方式,通过接收中标项目的数据集;从数据集中的每个中标项目中提取第一特征属性,其中,所述第一特征属性至少包括中标内容、单位、金额及时间属性;通过训练后的项目筛选模型,根据第一特征属性从数据集中筛选出目标项目集;达到了特征属性提取配合模型预测目标项目集替代人为筛选的目的,从而实现了节省时间,降低人力成本,且能够保证数据时效性的技术效果,进而解决了由于人工筛选出测绘中标项目造成的费时费力,且数据时效性得不到保障的技术问题。

根据本发明实施例,优选的,通过训练后的项目筛选模型,根据第一特征属性从数据集中筛选出目标项目集之后还包括:

将目标项目集通过短信或数据接口推送至监管端。

待所有中标项目全部判断完之后,将目标项目集通过短信或数据接口推送至监管人员的手机或电脑上,如此,监管人员可以进行高效监管。

根据本发明实施例,优选的,项目筛选模型的训练包括:

接收中标项目的样本数据集;

在另一种优选实施方案中,项目筛选模型的训练包括:

对样本数据集进行预处理,针对每个项目文本实例,提取其中标内容、中标单位、中标金额等属性。

根据粗糙集理论,利用条件信息熵进行属性约减,计算筛选决策属性(D)。

对指标约减后的样本数据集,采用fastText框架作为文本分类框架,进行文本训练,得到项目筛选模型参数。

本实施例中,服务器可以通过数据接口接入第三方招投标信息公示平台而建立通信,如此,服务器可以主动或被动在该平台上获取所有中标项目形成的样本数据集。优选的,服务器为被动获取海量中标项目形成的样本数据集。

从样本数据集中的每个中标项目中提取第二特征属性,其中,所述第二特征属性至少包括中标内容、单位、金额及时间属性;

对样本数据集进行预处理,针对每个项目文本实例,提取其中标内容、中标单位、中标金额、中标时间等属性。基于这些属性进行训练。

对第二特征属性执行文本截断、填充及编码操作,得到向量化的映射词典文件;

具体而言,对样本数据进行文本截断和填充,读入预处理后的数据,将每条记录截断为数据(D)和标签(L)部分,形成数据集合D和标签集合L,对于数据集合D,模型训练中要求输入的数据长度固定。因此,对于长度超过规定限度的数据,直接进行定长截断;对于长度不足的数据对其进行空值填充。经过标签提取和文本截断和填充步骤后,将预处理后的数据转化为标签集合L长度固定的数据集合D。

将所有文本中的词进行编码,并将对应的映射关系储存为词典文件。词典设置数据上限,词典以外的词将被赋予空值。经过这一过程后,固定长度的文本将转化为数值向量用于后续计算。

对于建立词编码-文本向量化这一映射过程中所成的词典文件,需要进行文件化存储方便后续的调用。

根据样本数据集执行训练、测试及验证操作,得到权值和偏差;基于映射词典文件、权值和偏差得到项目筛选模型。

具体而言,把数据集按照一定的比例切分为训练集、测试集和验证集。训练集用于训练网络参数,测试集用于测试训练结果,验证集用于辅助参数的确定。经过这一过程后,数据集被分为三部分供后续过程调用,模型的迭代训练开始。

对样本进行训练,计算预测值与实际值偏差,调整网络权值,当模型按照上述流程迭代足够的训练轮次后,保存当前网络对应的权值和偏置,导出训练好的模型及进行文本向量化的映射词典,供项目筛选调用。

在一种优选实施方式中,输入决策表DT=(U,C∪D),其中,U为论域,C和D分别是条件属性集和决策属性集。输出该决策表的一个相对约简 R。主要步骤:1)求决策属性D的信息熵H(D)。2)计算决策表中全部属性集C对决策属性集D的互信息量I(C,D)。3)求核属性core。①初始化核core=

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例,还提供了一种用于实施上述测绘市场项目智能化获取方法的装置,如图2所示,该装置包括:

接收模块10,用于接收中标项目的数据集;

根据本发明实施例,优选的,接收中标项目的数据集包括:

采用数据接口从第三方招投标信息公示平台获取中标项目的数据集。

本实施例中,服务器可以通过数据接口接入第三方招投标信息公示平台而建立通信,如此,服务器可以主动或被动在该平台上获取所有中标项目形成的数据集。优选的,服务器为周期性获取该时间段内的所有中标项目形成的数据集。

提取模块20,用于从数据集中的每个中标项目中提取第一特征属性,其中,所述第一特征属性至少包括中标内容、单位、金额及时间属性;

本实施例中,每个中标项目中都包含相应的信息,采用文字识别技术结合语义识别能够对中标项目中的内容进行识别,根据识别结果确定每个中标项目的内容,并且将识别出来的中标内容、单位、金额及时间属性作为某个中标项目所对应的第一特征属性;为中标项目筛选提供输入参数保障。

筛选模块30,用于通过训练后的项目筛选模型,根据第一特征属性从数据集中筛选出目标项目集。

根据本发明实施例,优选的,通过训练后的项目筛选模型,根据第一特征属性从数据集中筛选出目标项目集包括:

将特征属性输入项目筛选模型;

项目筛选模型根据第一特征属性判断对应的第一中标项目是否有效;

如果有效,则将第一中标项目筛选至目标项目集中。

本实施例中,训练后的项目筛选模型结合第一特征属性具有判断某个中标项目(即第一目标项目)是否符合标准的作用;具体的,项目筛选模型结合第一特征属性中的中标内容属性,可以判断出中标内容是否流标,从而能够筛除流标的项目;项目筛选模型结合第一特征属性中的中标单位属性,可以判断出中标单位是否和测绘相关,从而能够进一步筛选初步筛选出的中标项目;项目筛选模型结合第一特征属性中的中标金额属性,可以判断出中标金额是否过小,从而能够筛除规模较小的中标项目;项目筛选模型结合第一特征属性中的中标时间属性,可以判断出中标时间是否超期,从而能够筛除超期的中标项目。每个中标项目通过以上的所有判断就筛选至目标项目集中。

如此实现了中标项目的多维度筛选,使留下的目标项目集中的中标项目更为精确,更为符合要求,能够直接运用于监管;达到了特征属性提取配合模型预测目标项目集替代人为筛选的目的,从而实现了节省时间,降低人力成本,且能够保证数据时效性的技术效果。

从以上的描述中,可以看出,本发明实现了如下技术效果:

在本申请实施例中,采用特征属性提取配合模型预测的方式,通过接收中标项目的数据集;从数据集中的每个中标项目中提取第一特征属性,其中,所述第一特征属性至少包括中标内容、单位、金额及时间属性;通过训练后的项目筛选模型,根据第一特征属性从数据集中筛选出目标项目集;达到了特征属性提取配合模型预测目标项目集替代人为筛选的目的,从而实现了节省时间,降低人力成本,且能够保证数据时效性的技术效果,进而解决了由于人工筛选出测绘中标项目造成的费时费力,且数据时效性得不到保障的技术问题。

根据本发明实施例,优选的,通过训练后的项目筛选模型,根据第一特征属性从数据集中筛选出目标项目集之后还包括:

将目标项目集通过短信或数据接口推送至监管端。

待所有中标项目全部判断完之后,将目标项目集通过短信或数据接口推送至监管人员的手机或电脑上,如此,监管人员可以进行高效监管。

根据本发明实施例,优选的,项目筛选模型的训练包括:

接收中标项目的样本数据集;

本实施例中,服务器可以通过数据接口接入第三方招投标信息公示平台而建立通信,如此,服务器可以主动或被动在该平台上获取所有中标项目形成的样本数据集。优选的,服务器为被动获取海量中标项目形成的样本数据集。

从样本数据集中的每个中标项目中提取第二特征属性,其中,所述第二特征属性至少包括中标内容、单位、金额及时间属性;

对样本数据集进行预处理,针对每个项目文本实例,提取其中标内容、中标单位、中标金额、中标时间等属性。基于这些属性进行训练。

对第二特征属性执行文本截断、填充及编码操作,得到向量化的映射词典文件;

具体而言,对样本数据进行文本截断和填充,读入预处理后的数据,将每条记录截断为数据(D)和标签(L)部分,形成数据集合D和标签集合L,对于数据集合D,模型训练中要求输入的数据长度固定。因此,对于长度超过规定限度的数据,直接进行定长截断;对于长度不足的数据对其进行空值填充。经过标签提取和文本截断和填充步骤后,将预处理后的数据转化为标签集合L长度固定的数据集合D

将所有文本中的词进行编码,并将对应的映射关系储存为词典文件。词典设置数据上限,词典以外的词将被赋予空值。经过这一过程后,固定长度的文本将转化为数值向量用于后续计算。

对于建立词编码-文本向量化这一映射过程中所成的词典文件,需要进行文件化存储方便后续的调用。

根据样本数据集执行训练、测试及验证操作,得到权值和偏差;基于映射词典文件、权值和偏差得到项目筛选模型。

具体而言,把数据集按照一定的比例切分为训练集、测试集和验证集。训练集用于训练网络参数,测试集用于测试训练结果,验证集用于辅助参数的确定。经过这一过程后,数据集被分为三部分供后续过程调用,模型的迭代训练开始。

对样本进行训练,计算预测值与实际值偏差,调整网络权值,当模型按照上述流程迭代足够的训练轮次后,保存当前网络对应的权值和偏置,导出训练好的模型及进行文本向量化的映射词典,供项目筛选调用。

根据本发明实施例,如图3所示,还提供了一种用于存储上述测绘市场项目智能化获取方法的存储介质;也能取得测绘市场项目智能化获取方法相同的技术效果。

根据本发明实施例,如图4所示,还提供了一种服务器;该服务器包括:处理器200和存储器100,该处理器200用于执行存储在存储器100中的上述测绘市场项目智能化获取方法;也能取得测绘市场项目智能化获取方法相同的技术效果。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号