法律状态公告日
法律状态信息
法律状态
2022-08-16
实质审查的生效 IPC(主分类):G06K 9/62 专利申请号:202210231502X 申请日:20220310
实质审查的生效
技术领域
本发明涉及一种数据造假识别系统,特别是一种上市公司财务数据造假识别系统。
背景技术
资本市场的良好运行离不开公开、透明和真实的信息披露。如何通过公司特征提前判断出可能进行财务造假的公司就成为财务界、资本市场监管机构和学术界共同关心的重要问题。投资者需要对上市公司近几年的财务数据进行系统分析规避风险,从而保障投资安全。然而,传统市场预测模型对中国上市公司的财务数据进行分析评估时,其模型的预测能力较差,准确率较低。因此,现有的技术存在着预测能力较差的问题。
发明内容
本发明的目的在于,提供一种上市公司财务数据造假识别系统。本发明具有能够有效提高预测能力的特点。
本发明的技术方案:上市公司财务数据造假识别系统,包括数据获取模块,数据获取模块连接有数据预处理模块,数据预处理模块连接有指标筛选模块,指标筛选模块连接有造假识别模块,造假识别模块连接有报告生成模块。
前述的上市公司财务数据造假识别系统中,所述数据获取模块包括网络爬取数据单元和用户上传数据单元;所述网络爬取数据单元包括定时爬虫子单元和Scrapy爬虫子单元。
前述的上市公司财务数据造假识别系统中,定时爬虫子单元用于监控爬虫运行状态、设置爬虫抓取频率以及爬虫程序异常处理;
Scrapy爬虫模块:从目标网站上抓取数据,采集上市公司公开的财务数据并存入系统数据库。
前述的上市公司财务数据造假识别系统中,用户上传数据单元通过用户上传所要查询和分析的财务数据。
前述的上市公司财务数据造假识别系统中,所述数据预处理模块包括数据基本分析单元、缺失值和异常值处理单元、数据标准化处理单元和数据预过滤筛选单元。
数据基本分析单元通过对互联网爬虫数据和用户上传数据进行审核、筛选和排序操作,然后识别无关指标并删除得到有效数据,无关指标包括实际披露时间、发布时间、报告截止时间、报告类型和会计区间;然后将有效数据进行单位统一后转化为满足要求的数据,得到预处理数据;
缺失值和异常值处理单元对预处理数据进行缺失值和异常值处理的具体操作包括以下方式:对于缺失率大于50%的数据,采取删除的方式;对于缺失率在20%-50%之间的数据,采取填补的方式,以0 值进行填充;对于缺失率小于20%的数据,采取随机森林填补的方式,选出缺失值数量最小的一列,进行随机森林回归模型训练填充,以此循环;对于数据异常值,先采用单边选择法进行欠采样,后采用 ADASYN方法进行过采样;
数据标准化处理单元采用z-score标准化方法将各项数据进行方差标准化;
数据预过滤筛选单元通过方差过滤和互信息法筛选得到初步财务数据造假特征因子。
前述的上市公司财务数据造假识别系统中,所述指标筛选模块包括递归特征消除单元,递归特征消除单元依次连接有基于赋分机制的数据指标筛选单元、不同行业指标异同比较单元和行业指标造假判断单元。
前述的上市公司财务数据造假识别系统中,所述递归特征消除单元包括基于KNN的递归特征消除子单元、基于SVC的递归特征消除子单元、基于决策树的递归特征消除子单元、基于随机森林的递归特征消除子单元以及基于Adaboost的递归特征消除子单元。
前述的上市公司财务数据造假识别系统中,指标筛选模块的具体操作过程为:对初步财务数据造假特征因子,通过KNN、SVC、决策树、随机森林、Adaboost五种机器学习模型进行递归特征消除分别筛选出重要性排名前20的特征因子进行赋分机制,从而分别筛选出得分最高的财务数据造假特征数据指标;分别将得分最高的财务数据造假特征数据指标与行业指标之间的异同进行比较,筛选各行业财务造假数据指标。
前述的上市公司财务数据造假识别系统中,造假识别模块,在通过KNN、SVC、决策树、随机森林、Adaboost五种机器学习模型筛选得到的得分最高的财务数据造假特征数据指标上分别进行五折交叉验证,从五折交叉验证获得五个最佳阈值并从中选择最小值作为最初的预测阈值,过滤不存在造假行为的数据;
使用Stacking融合模型过滤无财务造假的上市公司之后,采用五折交叉验证获得的最佳阈值的平均值作为预测阈值再使用 Stacking融合模型进行造假识别,识别出存在财务造假的公司。
前述的上市公司财务数据造假识别系统中,报告生成模块,利用 Stacking融合模型的数据指标筛选结果和识别结果,对比专业的财务数据正常范围,进行数据分析,形成相应的财务分析报告,对识别结果进行佐证。
与现有技术相比,本发明由数据获取模块、数据预处理模块、指标筛选模块、造假识别模块和报告生成模块构成,从互联网上爬取公开的上市公司财务数据以及用户提供的财务数据,对财务数据进行数据处理,过滤筛选相关行业的财务数据造假特征指标,识别上市公司财务数据造假的可能性,预测上市公司未来财务数据造假的可能性,并形成相应的财务分析报告予以佐证。具体的,本发明通过对互联网财务数据年级或者月级更高频次的抓取,采集市场监管部门对出现财务造假的上市公司的造假手段以及相关政策,对于系统进行实时更新,确保系统分析的准确性和时效性;本发明采用不同的模型进行训练,得到准确的造假判断,从而融合模型的训练能力,预测未来可能出现财务数据造假的上市公司;本发明还可以根据模型训练,生成相应的财务数据分析报告,对于上市公司财务数据造假的特征因子与正常情况下进行比较,提供在不同行业的差异性分析。综上所述,本发明具有能够有效提高预测能力的特点。
附图说明
图1是本发明的流程图;
图2是数据预处理模块的流程图;
图3是指标筛选模块的流程图;
图4是造假识别模块的流程图。
附图中的标记为:1-数据获取模块,2-数据预处理模块,3-指标筛选模块,4-造假识别模块,5-报告生成模块,101-网络爬取数据单元,102-用户上传数据单元,201-数据基本分析单元,202-缺失值和异常值处理单元,203-数据标准化处理单元,204-数据预过滤筛选单元,301-递归特征消除单元,302-基于赋分机制的数据指标筛选单元, 303-不同行业指标异同比较单元,304-行业指标造假判断单元。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
实施例。上市公司财务数据造假识别系统,构成如图1至图4 所示,包括数据获取模块1,数据获取模块1连接有数据预处理模块2,数据预处理模块2连接有指标筛选模块3,指标筛选模块3连接有造假识别模块4,造假识别模块4连接有报告生成模块5。
所述数据获取模块1包括网络爬取数据单元101和用户上传数据单元102;所述网络爬取数据单元101包括定时爬虫子单元和Scrapy 爬虫子单元。
定时爬虫子单元用于监控爬虫运行状态、设置爬虫抓取频率以及爬虫程序异常处理;
Scrapy爬虫模块:从目标网站上抓取数据,采集上市公司公开的财务数据并存入系统数据库,以便进行后续的数据处理以及财务造假指标筛选。
用户上传数据单元102通过用户上传所要查询和分析的财务数据。
所述数据预处理模块2包括数据基本分析单元201、缺失值和异常值处理单元202、数据标准化处理单元203和数据预过滤筛选单元 204。
数据基本分析单元201通过对互联网爬虫数据和用户上传数据进行审核、筛选和排序操作,然后识别无关指标并删除得到有效数据,无关指标包括实际披露时间、发布时间、报告截止时间、报告类型和会计区间;然后将有效数据进行单位统一后转化为满足要求的数据,得到预处理数据;
缺失值和异常值处理单元202对预处理数据进行缺失值和异常值处理的具体操作包括以下方式:对于缺失率大于50%的数据,采取删除的方式;对于缺失率在20%-50%之间的数据,采取填补的方式,以0值进行填充;对于缺失率小于20%的数据,采取随机森林填补的方式,选出缺失值数量最小的一列,进行随机森林回归模型训练填充,以此循环;对于数据异常值,先采用单边选择法进行欠采样,后采用 ADASYN方法进行过采样;
数据标准化处理单元203采用z-score标准化方法将各项数据进行方差标准化,减小各特征数据之间的差异性,提高模型准确率;
数据预过滤筛选单元204通过方差过滤和互信息法筛选得到初步财务数据造假特征因子;
具体方法为:首先,一个特征的方差很小,则该特征在整个样本中的重要性较小,无法达到样本的区分,所以先消除方差为0的特征。互信息法返回每个特征与目标之间的互信息量的估计,这个估计量在 [0,1]之间取值,为0则表示两个变量独立,为1则表示两个变量完全相关,去除相互独立的特征,剩下的相关特征进入后续的指标筛选。
所述指标筛选模块3包括递归特征消除单元301,递归特征消除单元301依次连接有基于赋分机制的数据指标筛选单元302、不同行业指标异同比较单元303和行业指标造假判断单元304。
所述递归特征消除单元301包括基于KNN的递归特征消除子单元、基于SVC的递归特征消除子单元、基于决策树的递归特征消除子单元、基于随机森林的递归特征消除子单元以及基于Adaboost的递归特征消除子单元。
指标筛选模块3的具体操作过程为:对初步财务数据造假特征因子,通过KNN、SVC、决策树、随机森林、Adaboost五种机器学习模型进行递归特征消除(消除的具体方法为:给每一个特征指定一个权重,接着采用预测模型在这些原始的特征上进行训练。在获取到特征的权重值后,对这些权重值取绝对值,把最小绝对值剔除掉;按照这样做,不断循环递归,直至剩余的特征数量达到所需的特征数量)分别筛选出重要性排名前20的特征因子进行赋分机制,从而分别筛选出得分最高的财务数据造假特征数据指标;分别将得分最高的财务数据造假特征数据指标与行业指标之间的异同进行比较,筛选各行业财务造假数据指标。
决策树是一种基本的分类方法,将不同特征取值的分类规则组合成树,达到最终的分类结果,算法的执行效率高且可解释性强。
SVC通过寻求结构风险最小化,将分类问题转变为求解凸规划问题和核函数。算法的复杂性取决于支持向量的数量,不受数据维度的影响,具有较强的泛化能力。特征权重采用每个特征的系数。
以上两种算法都能够进行非线性分类,并且评估每一个特征的权重,便于筛选出财务造假的重要指标。
造假识别模块4,在通过KNN、SVC、决策树、随机森林、Adaboost 五种机器学习模型筛选得到的得分最高的财务数据造假特征数据指标上分别进行五折交叉验证,从五折交叉验证获得五个最佳阈值并从中选择最小值作为最初的预测阈值,过滤不存在造假行为的数据;
使用Stacking融合模型过滤无财务造假的上市公司之后,采用五折交叉验证获得的最佳阈值的平均值作为预测阈值再使用Stacking融合模型进行造假识别,识别出存在财务造假的公司。
报告生成模块5,利用Stacking融合模型的数据指标筛选结果和识别结果,对比专业的财务数据正常范围,进行数据分析,形成相应的财务分析报告,对识别结果进行佐证。
数据获取模块
数据获取模块分为网络爬取数据和用户上传数据两个部分构成。
网络爬虫数据分为定时爬虫模块和Scrapy爬虫两个模块构成。定时爬虫模块:管理整个爬虫模块、监控爬虫运行状态、设置爬虫抓取频率(每个季度更新一次)、爬虫程序异常处理。Scrapy爬虫模块:从目标网站上抓取数据,采集上市公司公开的财务数据进行数据处理和行业间财务数据造假指标分析,并结合监管部门披露的造假的上市公司进行识别分析。
用户上传数据支持用户将想要查询和分析的财务数据进行上传,进入模型进行训练,从而获得相应的财务数据分析报告。
网络爬虫可以从上海证券交易所、深圳证券交易所、巨潮资讯网、金融界和子主题等网页上爬取公开数据。
数据预处理模块
数据预处理主要对互联网爬虫数据和用户上传数据,得到便于模型分析的数据。爬虫爬取网站数据的时候进行数据预处理,对所收集的数据进行审核、筛选、排序等操作。数据预处理后会数据进行清晰,过滤掉不符合要求的数据,将脏数据转化成满足要求的数据。再进行缺失值处理,对缺失项进行特殊值填补,对于异常值进行分析处理。最后进行Filter过滤法筛选初步财务数据造假特征因子。
指标筛选模块
针对预处理后不同行业上市公司的财务数据,通过KNN、SVC、决策树、随机森林、Adaboost(LR)五种不同的机器学习方法进行递归特征消除,筛选出重要性排名前20的特征因子进行赋分体制,从而筛选出得分最高即最重要的财务数据造假特征数据指标,作为后续判断上市公司是否财务造假的重要依据。
造假识别模块
在现有的Stacking模型融合过程中引入阈值选择,即在数据样本上进行五折交叉验证,从五折交叉严重获得的五个最佳阈值中选择最小值作为最初的预测阈值。从而过滤不存在造假行为的数据样本。
分别比较五个机器学习模型直接预测得到若干财务造假概率最大的上市公司,使用Stacking融合模型过滤一部分不可能财务财务造假的上市公司之后,采用五折交叉验证最佳阈值的平均值作为预测阈值再使用模型进行造假识别。
机译: 证券上市公司专利权增长率评价装置,股票上市公司专利权增长率评价装置的操作方法及股票上市公司专利权增长率评价程序
机译: 证券上市公司专利权增长率评价装置,股票上市公司专利权增长率评价装置的操作方法及股票上市公司专利权增长率评价程序
机译: 财务数据处理设备,财务数据处理方法和财务数据处理程序