法律状态公告日
法律状态信息
法律状态
2018-07-17
授权
授权
2015-05-13
实质审查的生效 IPC(主分类):G06Q40/00 申请日:20141219
实质审查的生效
2015-04-15
公开
公开
【技术领域】
本发明涉及计算机科学与技术中的数据挖掘子领域,特别涉及一种挖掘纳税金额突增 的关联纳税人群体的方法。
【背景技术】
在真实环境的税务系统中,不同地区的税务系统之间的信息不对称,信息封闭没有统 一,难以真实统计各个地区的税务数据,大量税务数据缺乏分析利用,大量偷逃骗税行为 难以发现,导致税收流失率和流失税金居高不小。对税收数据进行分析,通过纳税人之间 的利益关联找到纳税行为异常的关联团体对纳税行为及相关商业行为监管,具有重要的作 用。
中国专利公开第CN1776737A号公开一种税务监控的方法及系统,该方法在不改变商 业信息系统的硬件、软件和网络结构的前提下,通过在商业信息系统中接入嵌入式税务监 控器实现对商业销售终端打印信息的截获并进行判断、重整转换成为税控发票信息,该系 统包括商业收款机、打印机及其网络,在商业收款机、打印机之间设有通过接口相连的税 务监控器,税务监控器内嵌有对销售系统软件发送给操作系统的打印信息进行截获并判断、 重整和转换成为税控发票信息的操作序列,通过打印机打印出税控发票和保留相关的税务 信息,从而实现税务监控的目的。该税务监控的方法及系统,商家投入成本较小、应用简 单方便、易于实现税务监控系统产品化。
中国专利公开第CN102842099A号公开一种电子税务管理终端,适用于电子税务服务 领域,提供一种电子税务管理终端,包括:中央处理器、智能卡安全模块、时钟控制模块、 接口模块,其中所述智能卡安全模块包括数据加密保存单元,所述中央处理器包括数据连 接建立单元、凭证请求发送单元、数据文件接收单元、凭证开具单元以及数据上传单元。 使用该电子税务管理终端,可以实现开具电子纳税凭证功能,与纸质开票相比,避免了偷 税漏税、提高了纳税操作效率、便于纳税统一管理,为实现发票信息化、信息管税、降低 纳税成本提供了解决方案。
中国专利公开第CN103218743A号公开一种企业税务风险评估平台,包括:数据获取 模块,用于获取企业的账务数据和税务数据;风险指标分析模块,用于根据数据获取模块 获取的账务数据和税务数据,计算出风险指标,并将计算出的风险指标与指标基准值进行 对比分析;风险评估模块,用于将风险指标分析模块中计算出的多个风险指标进行关联性 分析。该企业税务风险评估平台,通过将企业的风险指标值与风险指标基准值和基准范围 进行对比,发现企业内异常的风险指标;进一步地,通过将多个风险指标进行关联性分析, 对企业的税务风险程度进行评估,能够帮助企业及时发现存在的税务风险。
中国专利公开第CN103106613A号公开一种基于项目的企业税务监控分析平台,包括: 基础数据定义模块,用于定义企业项目的基础资料;动态数据获取模块,用于获取企业项 目在生命周期内的涉税动态数据;数据处理模块,用于对所述基础数据定义模块和动态数 据获取模块所获取的数据进行处理;监控分析展示模块,用于展示所述数据处理模块的处 理结果,用户根据所展示的处理结果对企业项目进行监控分析。通过上述模块的设立,将 企业项目涉税数据统一获取进来,并对获取的数据进行统计分析整理,进而讲统计分析整 理的结果以图标的形式展现出来。
中国专利公开第CN103383767A号公开一种基于纳税人利益关联网络模型的偷漏税关 联企业识别方法,该方法中所述的纳税人利益关联网络揭示了纳税人之间控股关系、实际 控制人关系和互锁关系。纳税人利益关联初始网络表示为五元组: TPIIN=(V,E,W,VColor,EColor),其中V={vp|p=1,...,NP}表示节点集合;E表示图中所 有存在边的集合,且令E={epq}={(vp,vq)|0<p,q≤Np},其中epq=(vp,vq)表示存在从第p 个节点到第q个节点的有向连线;W={wpq|0<p,q≤Np}为从第p个节点到第q个节点的 有向连线上的权重;VColor={LC,CC,BC,BLC,GC},其中LC表示法人颜色;CC表示企 业颜色;BC表示董事颜色;BLC表示董事互锁利益关联颜色,是多个董事节点形成互锁 关系之后的标记;GC表示企业集团颜色,是多个企业形成最小完全连通图后聚合形成的 节点标记;通过VColor中的颜色对TPIIN中的V节点分类可得:V=L∪C∪B,其中 L={vl|l=1,...,NL,NL<Np}表示所有标记颜色为LC的法人节点, C={vc|c=1,...,NC,NC≤Np}表示所有标记颜色为CC的企业节点, B={vb|b=1,...,NB,NB<Np}表示所有标记颜色为BC的董事节点,则有NL+NC+NB=Np; 为有向边上的颜色,其中表示实际控制人间双向的间接关 联关系,且如果vp到vq的边epq的颜色为记为则边epq的权重表示 法人vl与企业vc之间、或者董事vb和企业vc间的单向实际控制人关系,表 示法人与企业之间、或董事与企业之间、或企业之间的单向控股关系,表 示控股百分比;表示多个董事间的双向互锁关系,其表示董事间控股权 重程度;表示企业间的单向交易关系,其权重公式为:
其中Ave(profit(vi))为企业vp同期平均净利润,Ave(profit(C(V)))为同企业vi同行业的 企业同期平均净利润,Ave(profitproducti(vp))为企业vp生成产品producti的同期平均净利润, Ave(profitproducti(C(V)))为同企业vp同行业的企业生成产品producti的同期平均净利润;
基于上述定义,纳税人利益关联初始网络的构建步骤如下:
(1)从企业的工商局注册信息和证监会上市公司信息中获得C中所有vc的董事、法人、 股东和实际控制人信息,按照其类型生成节点及从该节点到vc的弧,同时标记该弧的颜色 为
(2)从公安户籍部门和证监会上市公司披露信息中获得董事、法人、股东与实际控制 人之间是否为亲属关系,如果是,则在vc和vb两者之间建立边,并且标记颜色为实际控制 人间双向的间接关联关系
(3)从上市公司、金融机构披露的信息中对具有一致行动人的董事和金融机构之间添 加边,颜色为
(4)从税务部门的电子发票系统,获得交易双方信息,在卖出企业和购入企业之间形 成单向交易关系;
最终得到纳税人利益关联初始网络TPIIN0=(V0,E0,W0,VColor,EColor),其中 V0=L0∪C0∪B0,其中L0={vl0|l0=1,...,NL0,NL0<Np0}表示法人节点, C0={vc0|c0=1,...,NC0,NC0≤Np0}表示所有的企业节点,B0={vb0|b0=1,...,NB0,NB0<Np0} 表示董事节点,则有NL+NC+NB=Np。E0={ep0q0}={(vp,vq)|0<p0,q0≤Np},其存储结构为 一组数组节点颜色TPE=(vp0,vq0,wp0q0,vcolor,ecolor),其中vcolor为VColor的枚举变量; ecolor为EColor的枚举变量。
但是上述现有技术中还没有一种方法能够挖掘纳税金额突增的关联纳税人群体。
【发明内容】
本发明的目的在于提供一种基于纳税人利益关联网络,挖掘纳税金额突增的关联纳税 人群体的方法。
为了实现上述目的,本发明采用如下技术方案:
一种挖掘纳税金额突增的关联纳税人群体的方法,包括以下步骤:
1)、依据纳税人当前以及历史纳税信息,对纳税人利益关联网络中所有纳税人节点进 行加权;
2)、密集子图挖掘:对纳税人利益关联网络中的每一个节点进行遍历,找出纳税人利 益关联网络中权重大于阈值φ的节点,删除权重小于或等于阈值φ的节点及该节点与关联节 点的关系;剩余的纳税人利益关联网络中的每一个连通子图都是密集子图。
本发明进一步的改进在于:步骤1)具体包括以下步骤:
利用移动指数加权平均算法计算纳税人利益关联网络中某一个纳税人下一时刻时间序 列的预测值:
在(2)式中,Predict(vi,t)表示t时刻节点vi纳税额度的预测值,δ为加权系数,取值范 围为[0,1],ΔQi代表i时刻纳税额度的实际值;i∈(t-1,t-k);k≥6,相邻时刻之间的间隔 为1月;
通过求得实际值与下一时刻预测值之间的差值,从而得到节点突发特性的绝对值;节 点的突发特性用于描述节点中短文本数量突然增加的情况;然而在实际情况中,实际值和 预测值之差有可能为负值,为了计算和分析的方便,通过max(x,y)函数,将突发特性绝对 值的最小值设为1;
AbsBurst(vi,t)=max(1,ΔQt-Predict(vi,t)) (3)
因此,在(3)式中,AbsBurst(vi,t)表示t时刻节点vi的突发特性绝对值,max(x,y)为大小 比较函数,返回较大值,ΔQi代表t-1时刻时刻纳税额度的实际值,Predict(vi,t)表示t时刻 节点vi纳税额度的预测值;
使用相对变化值描述纳税额度的突发特性:
在式(4)中,RelBurst(vi,t)为t时刻节点vi的突发特性相对值,AbsBurst(vi,t)表示t时刻 节点vi的突发特性绝对值,ΔQt-1为t-1时刻纳税额度的实际值;ε为数据平滑参数,取值 范围为[0,1];
综合突发特性绝对值和突发特性相对值两方面因素,节点vi的t时刻的权重度量 Burst(vi,t)如式(5)所示:
Burst(vi,t)=RelBurst(vi,t)·logAbsBurst(vi,t) (5)。
本发明进一步的改进在于:阈值为0.5。
本发明进一步的改进在于:步骤1)具体包括以下步骤:
1.1)基于纳税人的纳税历史记录,利用移动指数加权平均算法计算出纳税人在t时刻 的纳税额度预测值;
1.2)基于纳税额度预测值和纳税额度实际值计算出纳税人的突发特性绝对值;
1.3)基于突发特性绝对值和t-1时刻纳税额度实际值计算出纳税人的突发特性相对值;
1.4)基于突发特性绝对值和突发特性相对值计算出该纳税人节点的权重值。
相对于现有技术,本发明具有以下有益效果:本发明依据纳税人当前以及历史纳税信 息,对纳税人利益关联网络中的纳税人节点进行节点加权,然后利用密集子图挖掘方法, 发现纳税人利益关联网络中纳税金额突增且密切相关的纳税人群体。纳税金额的突然增长 有可能受到异常的商业活动的驱使,该方法结合纳税人利益关联网络,能够为纳税活动及 相关商业活动的监管提供参考的依据。
【附图说明】
图1为是纳税人利益关联网络示意图。
【具体实施方式】
请参阅图1所示,挖掘纳税金额突增的关联纳税人群体的方法分为2个步骤,即纳税 人节点加权和密集子图挖掘,其具包括以下步骤:
1)、对纳税人利益关联网络中所有纳税人节点进行加权:
利用移动指数加权平均算法(EWMA)来计算某一个纳税人下一时刻时间序列的预测 值。
在(2)式中,Predict(vi,t)表示t时刻节点vi纳税额度的预测值,δ为加权系数,取值范 围为[0,1],ΔQi代表i时刻(t-1时刻)纳税额度的实际值。i∈(t-1,t-k);k≥6,相邻时 刻之间的间隔为1月。纳税人利益关联网络是指一种用于描述纳税人之间控股关系、实际 控制人关系、互锁关系的网络模型。
通过求得实际值与下一时刻预测值之间的差值,从而得到节点突发特性的绝对值。节 点的突发特性用于描述节点中短文本数量突然增加的情况。然而在实际情况中,实际值和 预测值之差有可能为负值,为了计算和分析的方便,通过max(x,y)函数,将突发特性绝对 值的最小值设为1。
AbsBurst(vi,t)=max(1,ΔQt-Predict(vi,t))(3)
因此,在(3)式中,AbsBurst(vi,t)表示t时刻节点vi的突发特性绝对值,max(x,y)为大小 比较函数,返回较大值,ΔQi代表t-1时刻时刻纳税额度的实际值,Predict(vi,t)表示t时刻 节点vi纳税额度的预测值。
然而仅仅考虑绝对值是不合理的,因为某些纳税人基数大,其正常波动造成的差值也 是不可忽略的,因此使用其相对变化值将更加有效地描述纳税额度的突发特性。
在式(4)中,RelBurst(vi,t)为t时刻节点vi的突发特性相对值,AbsBurst(vi,t)表示t时刻 节点vi的突发特性绝对值,ΔQt-1为t-1时刻纳税额度的实际值,ε为数据平滑参数,取值 范围为[0,1]。
ε参数能够使得突发特性相对值处于合理的值域空间。当纳税人的纳税额度基数较小 时,较小的增幅都有可能引起突发量相对值的巨大增加。然而这种突发行为的实际影响并 没有那么大。通过加入参数ε可以有效避免这种情况。举例而言,当AbsBurst(vi,t)=50而 ΔQt-1=1,若没加入参数ε,则突发特性相对值为50;而加入ε并将其赋值为100时,突发 量相对值约为1.5。
综合突发特性绝对值和突发特性相对值两方面因素,节点vi的t时刻的权重度量 Burst(vi,t)如式(5)所示:
Burst(vi,t)=RelBurst(vi,t)·logAbsBurst(vi,t) (5)
在式(5)中,对突发特性绝对值取对数,这样能够使它和突发特性相似值在相似的值域 范围。
2)、密集子图挖掘
对纳税人利益关联网络中的每一个节点进行遍历,找出纳税人利益关联网络中权重大 于阈值φ(本实施例中阈值取0.5)的节点,删除权重小于或等于阈值φ(本实施例中阈值 取0.5)的节点及该节点与关联节点的关系;剩余的纳税人利益关联网络中的每一个连通子 图都是密集子图。
附图1为纳税人利益关联网络示意图,以图1为示例对密集子图挖掘过程进行说明。 对纳税人利益关联网络中所有纳税人节点进行加权;然后对纳税人利益关联网络中的每一 个节点进行遍历,找出纳税人利益关联网络中权重大于阈值0.5的节点为v2和v7;而且节 点v2和v7构成一个连通子图,所以节点v2和v7是一个密集子图。
机译: 当请求电子纳税申报数据但未由纳税人提供电子纳税申报表
机译: 用于使用预测模型确定与纳税人在准备电子纳税申报单时相关的税收主题的方法系统和制造产品
机译: 用于使用预测模型确定与纳税人在准备电子纳税申报单时相关的税收主题的方法系统和制造产品