首页> 中国专利> 一种基于LSTM的文化附加值评估方法

一种基于LSTM的文化附加值评估方法

摘要

本发明属于文化附加值评估技术领域,涉及一种基于LSTM的文化附加值评估方法,包括步骤1:构建基于个人‑企业‑社会的三维度指标体系;步骤2:建立表示待评价文化产品的评论语料库的特征词表;步骤3:特征句提取,获得特征句数据;步骤4:训练LSTM网络模型;步骤5:对LSTM网络模型进行准确性测试和预测,获得情感值;步骤6:对步骤1所述的三维度指标体系的指标进行赋权重;步骤7:建立文化附加值计算方程模型,获得文化附加评估值。本发明优化了以往传统评价模型中评估指标过于主观、不容易量化等缺点,适用于研究网络平台环境下评论数据规模繁多等问题。

著录项

  • 公开/公告号CN113298365A

    专利类型发明专利

  • 公开/公告日2021-08-24

    原文格式PDF

  • 申请/专利权人 北京信息科技大学;

    申请/专利号CN202110515653.3

  • 申请日2021-05-12

  • 分类号G06Q10/06(20120101);G06F40/211(20200101);G06F40/216(20200101);G06F40/289(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11392 北京卫平智业专利代理事务所(普通合伙);

  • 代理人闫萍

  • 地址 100192 北京市海淀区清河小营东路12号

  • 入库时间 2023-06-19 12:19:35

说明书

技术领域

本发明属于文化附加值评估技术领域,涉及一种基于LSTM的文化附加值评估方法,尤其涉及一种基于LSTM(长短期记忆人工神经网络)神经网络的文化附加值评估方法。

背景技术

互联网技术的快速发展引领了一股数字经济潮流。在新的时代背景下,文创产业逐渐走向数字化和智能化,带给人们不一样的文化体验。“数字”、“文化”和“平台”的有机融合衍生出一系列文创新形态和新业态,使得文创产品不再是简单地复现传统文化,而是通过数字技术去实现产品与不同文化的融通共生,让空洞而又呆板的文化符号“活”起来,为产品带来更多的文化附加价值。比如,网络文创博物馆打造了无数深入人心的“网红产品”:故宫口红吸粉无数,雍正御批胶带红遍网络等等。高文化附加值使文创产品不仅能满足消费者的精神文化需求,成为商家赢得消费者青睐的重要手段,还能创造独特的文化品牌形象,让蕴藏其中的优秀文化走进普通人的生活,成为文化承载者和传播者。

由此可见,以文化附加值提升为核心的文创模式已经成为文创产业发展的主流趋势,随之而来也引发了文创企业和学术界新一轮的思考:“文化附加值到底对原有产品提升有多大”,“不同文化元素与产品的融合到底能够提升怎样的文化附加值”,“如何利用这些附加价值背后的规律去指导文化产品的设计和品牌塑造呢?”。这些关键问题的解决首先必须回答:“文化附加值的构成是什么”,以及“如何测量这种文化附加值”,然而对于这两个基本问题的研究,仍以定性分析为主,缺乏对于文化附加值量化方法的探索。鉴于此,本申请从情感视角对文化附加值的内涵和结构进行解析;以网络平台上的产品评论数据为支撑,提出一种基于LSTM细粒度情感分析的文化附加值评估方法,并为后续相应研究提供参考。

发明内容

本发明的目的在于:提出一种基于LSTM神经网络的文化附加值评估方法,构建了文化附加值的指标体系和LSTM情感分析评估模型,以解决上述背景技术中提出的问题。

本发明是通过以下技术方案实现的:

一种基于LSTM的文化附加值评估方法,包括以下步骤:

步骤1:从文化附加值的层次功能视角构建基于个人-企业-社会的三维度指标体系;

步骤2:准备待评价文化产品的评论语料库,并对其进行分词处理,然后基于TF-IDF算法,建立表示待评价文化产品的评论语料库的特征词表;

步骤3:特征句提取,获得特征句数据;

步骤4:利用步骤3提取的特征句数据训练LSTM网络模型,选择交叉熵作为损失函数参数,等待损失函数收敛,得到学习过程曲线;

步骤5:对LSTM网络模型进行准确性测试和预测,获得情感值;

步骤6:对步骤1所述的三维度指标体系的指标进行赋权重;

步骤7:建立文化附加值计算方程模型,获得文化附加评估值。

在上述技术方案的基础上,所述步骤1具体为:参考已有文化附加值评价及层次功能视角的相关文献,构建基于个人-企业-社会的三维度指标体系;

所述基于个人-企业-社会的三维度指标体系包括:3个一级指标;

所述3个一级指标包括:文化精神享受、文化品牌塑造和文化精髓传承;

所述文化精神享受包括以下二级指标:文化产品的观赏性和文化产品的艺术性;

所述文化品牌塑造包括以下二级指标:文化品牌的知名度和文化品牌的忠诚度;

所述文化精髓传承包括以下二级指标:文化的继承性和文化的传播性。

在上述技术方案的基础上,所述评论语料库的基本单位是单条评论;

所述步骤2的具体步骤为:

步骤2.1:通过调用jieba工具的分词模块对所述评论语料库的评论进行分词,得到语料库分词结果;

步骤2.2:采用jieba工具的TF-IDF算法,设置必要的词频保留阈值等参数,获得表示整个评论语料库所需的特征词表。

在上述技术方案的基础上,步骤2.2的具体步骤为:

步骤2.2.1:利用TF-IDF(词频-逆文档频率)算法提取关键词,具体是:利用公式(1)、(2)和(3)进行计算,

其中,TF

其中,IDF为逆向文件频率;若包含某词条的有效评论数据的数量越少,则表明其IDF越大,说明该词条具有很好的类别区分能力;

TFIDF=TF

其中,TFIDF为:词频-逆文档频率;

步骤2.2.2:确定词频保留阈值,筛选TFIDF的数值高于词频保留阈值的词条作为关键词(例如:确定词频保留阈值为:20);上述筛选倾向于过滤掉常见的词语,保留相对重要的词语;

再用Counter库对关键词进行词频统计,得到候选特征词;

所述Counter库是python中的一个库,属于字典的子类,元素被存储为字典的关键字,而关键字出现的次数被存储为相应的数值;

最后,根据个人-企业-社会的三维度指标体系,经过人工筛选辨别,对候选特征词进行分级分类后,得到表示整个评论语料库所需的特征词表。

在上述技术方案的基础上,所述特征句包括:显示特征句和隐式特征句;

所述步骤3的具体步骤为:

第一步,显式特征句提取;

对所有语料库分词结果进行逐词遍历,并与步骤2所述特征词表进行比对,将匹配到的特征词作为该词条所在评论的特征属性;

将具有特征属性的评论提取出来,并标注为显式特征句;

再利用Standford NLP平台对提取到的显式特证句进行依存句式分析,提取所述显式特征句的修饰词;

提取所述显式特征句的修饰词具体步骤是:对显式特征句的词条进行逐词遍历,并与HowNet情感字典的修饰词进行比对,将匹配到的修饰词作为该词条所在显式特征句的修饰词;

所述HowNet情感字典包括:形容词、名词、动词、副词及它们的组合;

针对匹配到修饰词的显式特征句,进行以下处理:

将所述显示特征句的特征词作为主导词,显示特征句的修饰词作为情感词,构建“属性特征-情感词”对,进而得到“属性特征-情感词-属性情感词对权重”;

所述属性特征为:主导词;

将所述属性情感词对权重记为:SQ,按照公式(4)计算,

第二步:隐式特征句提取;

针对没有匹配到特征词的特征句,对其词条进行逐词遍历,并与HowNet情感字典的修饰词进行比对;

当所述没有匹配到特征词的特征句没有匹配到修饰词时,将此条特征句删除;

当所述没有匹配到特征词的特征句匹配到修饰词时,将匹配到的修饰词作为该词条所在特征句的修饰词,将修饰词作为情感词;

然后,根据前述获得的“属性特征-情感词-属性情感词对权重”,以没有匹配到特征词的特征句中的情感词为依据,选取属性情感词对权重最大的属性特征作为没有匹配到特征词的特征句的特征词;

将上述获得特征词的没有匹配到特征词的特征句作为隐式特征句;

Standford NLP平台是一个自然语言处理工具包,其集成了很多非常实用的功能,包括分词、词性标注和句法分析等;Standford NLP平台不是一个深度学习框架,而是一个已经训练好的模型,可以类比为一个软件;stanford NLP平台用Java语言编写,有python接口;

即:对于剩下的没有匹配到特征词的评论,其特征不够明确,需要将语料库分词结果导入到Standford NLP平台进行句式依存关系挖掘,通过此步骤挖掘未明确的特征。

在上述技术方案的基础上,所述步骤4的具体步骤为:

步骤4.1:针对上一步提取到的特征句,对每一个特征句进行人工标注标签;

表达积极情感的标签记为+1,表达消极情感的标签记为-1,表达中性情感的标签记为0;

步骤4.2:利用word2vec将特征句转化为词向量;

根据特征句匹配到的特征词所属的二级指标和一级指标,对特征句进行分类;

将所述词向量、特征句对应的特征词、特征句的分类结果和特征句对应的标签作为:特征句数据;

步骤4.3:将所述特征句数据分为训练集数据和测试集数据;

步骤4.4:将训练集数据和测试集数据的数量比例设置为4:1。

在上述技术方案的基础上,所述步骤4的具体步骤为:利用训练集数据训练LSTM网络模型;利用测试集数据测试LSTM网络模型。

在上述技术方案的基础上,所述LSTM网络的激活函数选用tan h函数,词向量维度值设为100,数据批处理量为32,即每次选用32个样本作为输入。

此外,在深度学习网络训练过程中,为防止过拟合现象,将神经元按照一定概率暂时从网络中丢弃,以减弱神经元节点间的联合适应性,从而增强泛化能力,经过交叉验证,将神经元丢弃率(即dropout值)设为0.5时,随机生成的网络结构最多;选择交叉熵作为LSTM网络模型学习曲线绘制的主要参数,等待曲线收敛,绘制曲线图。

在上述技术方案的基础上,所述步骤5的具体步骤为:对步骤4所训练完成的LSTM网络模型,检验LSTM网络模型的精确率、召回率和F1值;利用测试集获得所有二级指标的情感值。

在上述技术方案的基础上,所述三维度指标体系的指标的权重包括:一级指标权重(又称为:一级指标频率)和二级指标权重(又称为:二级指标频率);

将具有积极情感的特征句提取出来;

所述一级指标权重按公式(5)计算,

其中,YJ1为:在具有积极情感的特征句中匹配的一级指标特征词的出现频数(即次数),ZS为:具有积极情感的特征句中的所有匹配的特征词的出现频数;

所述二级指标权重按公式(6)计算,

其中,EJ2为:在具有积极情感的特征句中匹配的二级指标特征词的出现频数,ZS2为:在具有积极情感的特征句中匹配的二级指标特征词所属的一级指标中,特征词的出现频数。

在上述技术方案的基础上,步骤7所述文化附加值计算方程模型如式(7)所示,

文化附加评估值=文化精神享受一级指标权重*(“文化产品的观赏性”二级指标权重*“文化产品的观赏性”指标情感值+“文化产品的艺术性”二级指标权重*“文化产品的艺术性”指标情感值)+文化品牌塑造一级指标权重*(“文化品牌的知名度”二级指标权重*“文化品牌的知名度”+“文化品牌的忠诚度”二级指标权重*“文化品牌的忠诚度”指标情感值)+文化精髓传承一级指标权重*(“文化的继承性”二级指标权重*“文化的继承性”指标情感值+“文化的传播性”二级指标权重*“文化的传播性”指标情感值) (7)。

本发明的有益技术效果如下:

1、本申请从文化附加值的层次功能视角构建基于个人-企业-社会的三维度指标体系,构建了包括3个一级指标和6个二级指标的基于个人-企业-社会的三维度指标体系。指标体系具有更好的系统性及层次性,体现了感知价值研究对于文化产业发展的意义;

2、针对文化附加值,采用LSTM细粒度情感分析的感知价值评估模型。优化了以往传统评价模型中评估指标过于主观和不容易量化等缺点,适用于研究网络平台环境下评论数据规模繁多等问题。

附图说明

本发明有如下附图:

图1为本申请所述基于个人-企业-社会的三维度指标体系结构示意图。

图2为本申请所述基于LSTM的文化附加值评估方法流程示意图。

具体实施方式

以下结合附图对本发明做进一步详细说明。

如图1-2所示,本发明的目的在于:提出一种基于LSTM神经网络的文化附加值评估方法,构建了文化附加值的指标体系和LSTM情感分析评估模型,以解决上述背景技术中提出的问题。

本发明是通过以下技术方案实现的:

一种基于LSTM神经网络的文化附加值评估方法,该方法包括以下步骤:

步骤1:以从文化附加值的层次功能视角构建了基于个人-企业-社会的三维度指标体系;

步骤2:准备待评价文化产品的评论语料库,并对其进行分词处理,随后,基于TF-IDF算法,从待评价文化产品评论语料库中建立特征词表;

步骤3:特征句提取,,获得特征句数据;

步骤4:利用步骤3提取的特征句数据进行LSTM网络模型训练,选择交叉熵作为损失函数参数,等待损失函数收敛,得到学习过程曲线;

步骤6:LSTM网络模型准确性测试和测试集预测,获得情感值;

步骤6:对步骤1所述的三维度指标体系的指标进行赋权重。

步骤8:建立文化附加值计算方程模型,,获得文化附加评估值。

进一步,所述步骤1具体为:参考已有文化附加值评价及层次功能视角的相关文献,构建了基于个人-企业-社会的三维度指标体系;,认为文化附加值是由一级指标:文化精神享受、文化品牌塑造和文化精髓传承等三个要素及其相互关系的总和。在较为全面均衡涵盖文化产品的个人、企业、社会三大传统特征因素的基础上,结合文化元素的本质内涵,最终分别延伸出6个二级指标,分别是文化产品的观赏性,文化产品的艺术性、文化品牌的知名度、文化品牌的忠诚度、文化的继承性和文化的传播性,最终形成由3个一级指标、6个二级指标的文化附加值指标体系。

进一步,所述步骤2具体为:准备好待评估的文化产品评论语料库,语料库的基本单位是单条评论,通过调用jieba模块对语料库进行分词得到语料库分词结果,随后采用jieba的TF-IDF算法,设置必要的词频保留阈值等参数,获得表示整个评论语料库所需的特征词表。

进一步,所述步骤3具体为显式特征句和隐式特征句提取两步。对语料库分词结果进行遍历,并与步骤2所述特征词表进行比对,将匹配到的特征词作为该词条所在评论的特征属性;

将具有特征属性的评论提取出来,并标注为显式特征句;

对于剩下的特征属性不够明确的隐式特征句,需要将语料库分词结果导入到Standford NLP平台进行句式依存关系挖掘,通过此步骤挖掘未明确的特征属性。

所述步骤4具体为,对描述为同一指标下的特征属性的特征句进行汇总,从评论语料库分词结果中提取,进行集中分析,分类。对每一类别的评论语料库分词结果,并且对特征句进行人工标注标签,表达积极情感的标签记为+1,表达消极情感的标签记为-1,表达中性情感的标签记为0;

利用word2vec将特征句转化为词向量;

根据特征句匹配到的特征词所属的二级指标和一级指标,对特征句进行分类;

将所述词向量、特征句对应的特征词、特征句的分类结果和特征句对应的标签作为:特征句数据;

将所述特征句数据分为训练集数据和测试集数据;

将训练集数据和测试集数据的数量比例设置为4:1。

所述步骤4具体为,基于前述得到的带有标签的评论语料库分词结果,使用LSTM网络模型进行训练,模型的激活函数选用tan h函数,词向量维度值设为100,数据批处理量为32,即每次选用32个样本作为输入。此外,在深度学习网络训练过程中为防止过拟合现象,将神经元按照一定概率暂时从网络中丢弃,以减弱神经元节点间的联合适应性,从而增强泛化能力,经过交叉验证,将dropout值设为0.5时,随机生成的网络结构最多。并选择交叉熵作为模型学习曲线绘制的主要参数,等待曲线收敛,绘制曲线图;

所述步骤5具体为:调用步骤4所训练完成的LSTM模型对语料库进行情感分析,检验其精确率、召回率和F1值,判断模型的性能,待性能确认后,算出所有二级指标的情感值。

步骤6具体为:指标赋权,基于步骤4的分类结果,筛选具有积极情感极性的特征句,通过比对特征词表确定属于二级或一级指标的对应频数,分别计算出其一级指标频率和二级指标频率,设置为该指标值对应的权重。

步骤7具体为:建立文化附加值计算方程模型,参考由步骤6所形成的的各级指标的权重。

例如:文化附加评估值(加权总分值)=0.399*(0.638*“文化产品的观赏性”指标情感值+0.362*“文化产品的艺术性”指标情感值)+0.296*(0.569*“文化品牌的知名度”指标情感值+0.431*“文化品牌的忠诚度”指标情感值)+0.305*(0.382*“文化的继承性”指标情感值+0.618*“文化的传播性”指标情感值)

其中的小数为对应的权重。

以上所述仅为本发明的优选实施例,并不用以限制本发明,凡在本发明的形式和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

本说明书中未做详细描述的内容属于本领域专业技术人员公知的现有技术。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号