技术领域
本发明属于大宗商品电子商务数据处理技术领域,尤其涉及一种大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法。
背景技术
近年来大宗商品电子商务市场由恶意主体导致的风险事件频发,呈现高隐蔽、有组织的趋势,现有研究由于缺乏平台间有效的数据共享、缺少异构数据耦合建模,导致市场主体跨平台行为、跨交易行为关联分析能力弱,缺乏系统性挖掘和评价主体信用的能力。
由于交易主体跨平台行为主要通过在多个平台进行相应交易操作,实现跨平台关联交易。然而,利用现有方法很难直接将同一交易主体在不同交易平台上的交易数据关联起来。同时,同一交易主体在不同平台的交易行为通常会具有高度的相似性,这些交易记录会集中于某一交易品种,具有相似甚至相同的交易周期,交易数量或交易金额会十分相近。针对这种情况,针对这种情况,我们希望能够将这些具有相似性的交易记录聚到一起,基于交易聚类,将不同平台的交易主体确定为同一个交易主体,将所述同一交易主体在不同交易平台的交易数据关联到一起。
发明内容
技术问题:
本发明的目的是提出一种大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法,该方法对于实时到来的交易数据,基于交易品种、交易时间和交易规模进行实时聚类;基于聚类结果获得两个交易主体的交易相似度;若所述交易相似度大于相似度阈值,则确定所述两个交易主体是同一交易主体。
技术方案:在大宗商品电子商务场景下,交易主体会在不同的大宗商品电子交易平台进行相应的交易操作;因此我们将不同交易平台的交易主体确定为同一个交易主体,将同一交易主体在不同交易平台的所有的交易数据关联到一起,对于监管部门或交易平台进行有效监管有着至关重要的影响。该方法的主要技术方案如下:
一种大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法,所述方法用于根据交易数据判断两个交易主体是否属于同一个交易主体,所述方法包括以下步骤:
(1)获得交易数据;
(2)蒋交易数据标准化处理;
(3)采用基于快速搜索与密度峰值的聚类方法,将交易数据进行实时聚类,得到交易聚类结果;
(4)基于聚类结果中的相似交易比例,计算两个交易主体的交易相识度;
(5)若交易相识度大于相似度阈值,则判定两个交易主体是同一交易主体。
作为本发明的一种优选方案,所述步骤(3)中基于交易数据的特征,选择基于快速搜索与密度峰值的聚类算法(CFSFDP)进行实时聚类,将相似高的交易分到相同的簇类,将相似度较低的交易分到不同的簇类。
作为本发明的一种优选方案,所述步骤(3)中聚类方法将交易记录看作数据点,i= 1,2,…,m表示m个交易,选取每笔交易的交易价格和交易数量进行标准化,将交易转化为二维平面上的数据点,其中标准化后的交易价格作为横坐标,标准化后的交易数量作为纵坐标。
作为本发明的一种优选方案,所述步骤(3)中所述聚类方法首先需要确定数据集的聚类中心。其特征在于需要计算数据点i的局部密度ρ
作为本发明的一种优选方案,所述计算数据点i的局部密度ρ
其中δ
数据点与局部密度比其高的数据点之间的距离δ
作为本发明的一种优选方案,所述聚类方法需要将数据点划分到对应簇类中,其特征在于在确定数据集的聚类中心之后需要做的便将剩余非聚类中心的数据点按照局部密度ρ
作为本发明的一种优选方案,所述步骤(4)中根据两个交易主体的交易数据在聚类结果中的分布情况,计算所述两个交易主体的交易相似度。假设我们得到了n个簇类,交易主体 A和B各有交易记录,分布在这n个簇类中,计算交易主体A与B的交易相似度
其中a
有益效果:弥补传统方法的缺陷,助力发现相同交易主体的操纵行为,有效利用交易信息,聚集相似交易,实现从相似交易角度进行相同主体判定,弥补了恶意主体利用不同公司信息注册交易账户时传统方法难以判别的缺陷,同时聚集交易主体间的相似交易行为,可以挖掘交易主体间的关联,从而有效地发现相同交易主体的市场操纵行为。
附图说明
图1是本发明方法的主要原理图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
一种大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法,所述方法用于根据交易数据判断两个交易主体是否属于同一个交易主体,所述方法包括以下步骤:
(1)获得交易数据;
(2)蒋交易数据标准化处理:对于实时发生的交易数据,将交易数据转化为数据点,i= 1,2,…,m表示m个交易,选取每笔交易的交易价格和交易数量进行标准化,标准化后的交易价格作为横坐标,标准化后的交易数量作为纵坐标‘’
(3)采用基于快速搜索与密度峰值的聚类方法,将交易数据进行实时聚类,得到交易聚类结果;
选择基于快速搜索与密度峰值的聚类算法(CFSFDP)进行实时聚类,CFSFDP算法进行聚类时首先需要确定数据集的聚类中心,对于一个给定的数据集,CFSFDP算法需要为数据集内的每个数据点计算两个量化值:数据点的局部密度ρ
其中δ
一般而言,数据点与局部密度比其高的数据点之间的距离δ
(4)基于聚类结果中的相似交易比例,计算两个交易主体的交易相识度;
(5)若交易相识度大于相似度阈值,则判定两个交易主体是同一交易主体。
基于聚类结果度量交易主体的交易相似度。假设我们得到了n个簇类,交易主体A和 B各有交易记录,分布在这n个簇类中,计算交易主体A与B的交易相似度
其中a
机译: 一种基于语义相似度的电子文档自动迭代聚类的方法,一种基于语义相似度的聚类文档的多种搜索方法及计算机可读介质
机译: 基于后进先出方案管理商品交易数据的设备以及使用该方法管理商品交易数据的方法
机译: 用于开放交易商方法的客户信任的代理人的客户信任的代理人的电子商务信任的代理人的系统,该电子票证和电子货币方法使用客户的信任的代理人和交易者的信任的代理人基于授权方法执行付款交易提交用于服务的电子票证方法,该方法用于将电子票证从第一受信任的代理转移到第二受信任的代理以获取电子证书;用于远程重新验证电子证书的方法;基于身份的现金模块支付的方法;解决与电子商品有关的争议的方法;确保在通信网络中同时付款电子货币和交付电子商品的系统;用于实现处理设备之间的安全通信的方法和方法。