首页> 中国专利> 一种基于技能感知多注意力机制的招聘启事生成方法

一种基于技能感知多注意力机制的招聘启事生成方法

摘要

一种基于技能感知多注意力机制的招聘启事生成方法,涉及计算机应用技术领域。将基本信息数据拆分为词序列,初始化为词向量的形式作为词的浅层语义表示;利用全局的招聘启事数据构建知识图谱,输入经处理后的局部信息,初始化每个词的浅层语义表示,同时输入全局信息和对应基本信息。基于局部信息的输出,学习工作任务中每个词的高层语义表示生成技能词序列、文本词序列,并优化文本词序列中的技能词。本发明既考虑了局部的工作任务的语义特征以及基于它预测的技能词序列特征,又考虑了全局的先验专业技能知识语义特征,并将两部分预测到的词概率分布进行了加权求和,可以挖掘出招聘启事广告中的技能信息,提高了技能需求文档的生成质量。

著录项

  • 公开/公告号CN111667238B

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利权人 南开大学;

    申请/专利号CN202010453590.9

  • 发明设计人 刘杰;刘俪婷;张文政;

    申请日2020-05-26

  • 分类号G06Q10/10(2012.01);G06F16/36(2019.01);G06N3/08(2006.01);G06N3/04(2006.01);

  • 代理机构天津耀达律师事务所 12223;

  • 代理人张耀

  • 地址 300071 天津市南开区卫津路94号

  • 入库时间 2022-09-06 00:36:09

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-29

    授权

    发明专利权授予

说明书

技术领域

本发明涉及计算机应用技术。

背景技术

人力资源管理是通过对组织内外相关人力资源进行有效运用,满足组织当前及未来发展的需要,保证组织目标实现与成员发展的最大化的一系列活动的总称。其重要性对于个人发展,企业发展乃至社会的发展都不言而喻。随着互联网线上招聘的发展和招聘数据的累积,智能化的人力资源管理越来越被重视和关注。智能化人力资源管理通过对大数据的分析和建模来辅助人力资源管理并提高其效率和质量。

近年来,国内外已有很多工作针对智能化人力资源管理开展了相关研究,并且取得了一定的研究成果。Lee and Brusilovsky[1]基于招聘者和候选者的偏好设计了一个工作推荐系统。Qin等人[2]提出了一个个性化的问题推荐系统服务于工作面试环节。Sun等人[3]研究了任何组织的相容性。Xu等人[4]提出了一个数据驱动的方法来建模技能的流行度。同时,一些公司也开发了增强写作的工具:Textio,TapRecruit等等来辅助写作润色草稿。本发明专利也从辅助招聘广告的写作角度出发,创新性的提出智能化的段落生成。

在机器学习中,生成任务的发展日渐成熟。生成任务大多被建模成序列到序列的学习问题。Lopyrev[5]通过训练一个具有注意力机制的序列到序列的模型解决了标题生成任务。Xing等人[6]在序列到序列模型中引入了话题信息解决了连天机器人对话生成任务。Meng等人[7]在序列到序列模型应用了复制机制解决了关键字抽取问题。近年来,随着实际任务的复杂化,层级的序列到序列模型更多体现了模型结构的合理性和问题解决能力的优势。Dong and Lapata[8]分解语义解析过程为草稿生成和细节填写。Puduppully等人[9]提出了一个两阶段的模型:内容选择和规划,解决了表格数据到文本的生成。

发明内容

针对以上相关工作,本发明专利基于给定的工作任务详情和公司基本信息,智能化的生成技能范围列表并进一步的生成技能需求详情文本段落,该过程省去了人工的大量时间和对比分析,并且使得技能需求详情充分的考虑技能信息的丰富度。同时考虑到招聘启事中的技能具有较强的专业性和领域性,因此通过基于全局数据信息构建知识图谱,对最终生成的技能需求详情文本段落进行技能的优化。在对最终生成文本起到影响因素的工作任务详情,技能范围列表和知识图谱数据中,本发明通过注意力机制对其多来源数据信息进行加权融合达到一起训练的效果,使得技能需求详情文本段落的技能丰富度和准确度得到提升。

为了解决现有技术的问题,本发明相应的技术方案是:

一种基于技能感知多注意力机制的招聘启事生成方法,包括以下步骤:

步骤1,获得工作任务详情段落和基本信息数据,基本信息包括发布公司规模信息和工作职位信息和技能需求段落,其中,工作任务和技能需求首先分别被分词工具拆分为词序列,并将每个词初始化为词向量的形式作为词的浅层语义表示;利用全局的招聘启事数据构建知识图谱;输入经过分词处理后的工作任务详情(局部信息),使用词向量的方法初始化每个词的浅层语义表示;同时输入知识图谱(全局信息)和对应基本信息;

步骤2,基于步骤1中局部信息的输出,学习工作任务详情中每个词的高层语义表示:

根据步骤1中输出的局部信息的每个词的词向量,利用双向的长短时记忆网络以序列的方式对工作任务的词进行高层语义编码;

步骤3,基于步骤2中的输出,生成技能词序列;

步骤4,基于步骤3的输出,初步生成文本词序列;

步骤5,基于步骤1中全局信息部分和步骤4中的输出,进一步优化文本词序列中的技能词。

本发明的有益效果是:本发明基于工作任务详情和对应的基本信息实现技能需求详情的生成,提出的建模方法既考虑了局部的工作任务的语义特征以及基于它预测的技能词序列特征,又考虑了全局的先验专业技能知识语义特征,并将两部分预测到的词概率分布进行了加权求和,可以挖掘出招聘启事广告中的技能信息,提高了技能需求文档的生成质量。比如,给定工作任务“1.负责完成公司下达的年度销售指标。2.将年度指标分解至季度、月度并加以执行。3.确保客户订单及时汇款,确保无逾期、呆帐等。4.渠道新客户开发及老客户的维护。”,根据我们的方法智能生成“1.高中以上学历,1年以上销售经验,有销售运营类管理更加的优先考虑;2.有礼赠品团购终端客户服务体系的工作经验、熟悉礼品销售者优先;3.有团队合作精神,能承受较大的工作压力”。

附图说明

附图1是本发明的处理流程图。

附图2是本发明的整体系统结构示意图。

具体实施方式

本发明的一种基于技能感知多注意力机制的招聘启事生成方法,参见附图1,包括以下内容:

数据表示

本发明涉及到的数据主要为招聘启事广告数据,该数据以文本的形式存储。每个工作任务详情段落,会对应其基本信息(包括发布公司规模信息和工作职位信息)和技能需求段落。其中,工作任务和技能需求首先分别被分词工具拆分为词序列,并将每个词初始化为词向量的形式作为词的浅层语义表示。另外,利用全局的招聘启事数据构建知识图谱。首先,利用命名实体识别工具将技能需求段落中的技能抽取出来得到对应的技能序列,然后根据招聘启事中的语义信息构成知识图谱。本项目知识图谱包含3种实体(技能,公司规模和公司职位)和2种关系(N.T.M和IN),其中技能拥有一个属性(type),标记其为专业技能还是通用能力。例如:招聘启事数据中存在这样的语义信息:当一个应聘工作者,想要在一个公司规模为10-100人的公司里找一个程序员的工作需要掌握专业技能C++。知识图谱中可存储为3个这样的三元组:(程序员,N.T.M, C++),([10,100],IN,C++)和(C++,type,专业技能)。

工作任务的语义表示

对于工作任务的词序列浅层语义表示,使用长短期记忆网络对其进行编码,学习词的隐层语义表示。为了建模词序列不同方向上的信息,本发明使用双向的LSTM来总结两个方向上的词级别语义信息,从而获得对应的语义表示。

技能范围预测

基于上述步骤可以得到工作任务的语义表示,本发明使用长短期记忆网络逐一解码出技能词序列的隐层语义表示,进而根据其语义表示在技能词表中预测出概率最大的技能词。首先,将工作任务的语义表示作为输入,然后通过注意力机制对重要语义加强关注并预测技能词序列。最后,将得到的技能词序列用于引导下一层次的生成。同时,最后一个技能词的隐层语义表示被用来初始化技能需求文本解码器的开始状态。

技能需求生成

基于上述步骤可以得到工作任务的语义表示,技能词序列和知识图谱三元组数据表示。首先,技能词序列被初始化为技能词序列向量的形式作为其语义表示。然后,利用对应数据的基本信息在知识图谱中查找到相关专业技能,并初始化为技能词序列向量的形式作为其语义表示。本发明使用多个注意力机制生成综合考虑工作任务的语义和技能词序列语义的整体表示,进而根据其语义在全部词表中得到词概率分布。同时,使用多个注意力机制生成综合考虑工作任务的语义和知识图谱技能词序列语义的整体表示,得到先验知识中的技能词概率分布。最后,两者概率之加权和最高者为预测的最终文本词。

实施例:

下面结合附图和具体实施对本发明提供的基于技能感知多注意力机制的招聘启事生成方法进行详细说明。

本发明主要采用自然语言处理领域内的理论与方法辅助招聘启事的写作,为了保证系统的正常运行,对服务器配置有如下要求:

(1)操作系统:Ubuntu 16.04版本及以上

(2)CPU:核心数不低于Intel Xeon Gold 6142两个

(2)系统内存:不低于32GB,DDR4 2666MT/s

(3)显存大小:不低于16GB

同时,对软件环境有如下要求:

(1)编程环境:Python 3.6版本及以上

(2)深度学习框架:pytorch 1.1及以上

如图2所示,本发明提供的基于技能感知多注意力机制的招聘启事生成方法包括按顺序执行的下列步骤:

步骤1输入经过分词处理后的工作任务详情(局部信息),使用词向量的方法初始化每个词的浅层语义表示;同时输入知识图谱(全局信息)和对应基本信息。

步骤2基于步骤1中局部信息的输出,学习工作任务详情中每个词的高层语义表示:

根据步骤1中输出的局部信息的每个词的词向量,利用双向的长短时记忆网络以序列的方式对工作任务的词进行高层语义编码。

步骤3基于步骤2中的输出,生成技能词序列:

该过程包含三个步骤:(1)根据步骤2中输出的工作任务的语义表示,基于工作任务与技能词的映射关系利用注意力机制计算工作任务中每个词的注意力权重,并基于该权重对工作任务中词语的语义表示进行加权求和。(2)利用长短时记忆网络基于加权的工作任务语义表示解码出第一个技能词隐层语义表示,并根据语义表示在技能词表中得到技能词概率分布,概率最大的为预测的技能词并初始化为技能词向量。(3)继续利用长短时记忆网络基于加权的工作任务语义表示和前一个解码出的技能词向量,解码出下一个技能词隐层语义表示。最终,得到技能词向量序列作为预测技能的语义表示。

步骤4基于步骤3的输出,初步生成文本词序列:

该过程包含四个步骤:(1)根据步骤2中输出的工作任务的语义表示,基于工作任务与技能需求文本词的映射关系利用注意力机制计算工作任务中每个词的注意力权重,并基于该权重对工作任务中词语的语义表示进行加权求和。(2) 根据步骤3中输出的技能词的语义表示,基于预测的技能词与技能需求文本词的映射关系再次利用注意力机制联合训练,计算预测技能词中每个词的注意力权重,并基于该权重对预测技能中词语的语义表示进行加权求和。(3)对工作任务的注意力语义表示和预测技能的注意力语义表示进行拼接得到整体语义表示,基于整体语义表示在文本词表中得到词概率分布,概率最大的预测为第一个技能需求文本词并初始化为文本词向量。(4)继续利用长短时记忆网络基于拼接后的整体语义表示和前一个预测的文本词向量,逐步解码出下一个文本词的隐层语义表示。基于此,在文本词表中得到词概率分布。

步骤5基于步骤1中全局信息部分和步骤4中的输出,进一步优化文本词序列中的技能词:

该过程包含四个步骤:(1)基于知识图谱和对应的基本信息,在知识图谱中根据先验知识查找得到推荐的技能词,并对知识图谱技能词初始化为向量形式。 (2)基于知识图谱技能词与技能需求文本词的映射关系,再次利用注意力机制联合步骤4中的注意力机制共同训练,计算知识图谱技能词中每个词的注意力权重,并基于该权重对知识图谱技能词的语义表示进行加权选择。(3)基于知识图谱技能词的注意力语义表示,逐一地在技能词表中得到词概率分布。(4) 将基于知识图谱先验知识得到的技能词概率分布对应的与步骤4中得到的词概率分布进行加权和,加权和概率最大的预测为文本词。最终,生成技能需求文本。

在步骤1中:输入经过分词处理后的工作任务详情,其中工作任务表示为如下形式:

X

其中m表示工作任务中包含的词个数,x

在步骤2中:基于工作任务的词向量,使用双向的长短时记忆网络对词的高层语义表示进行编码:

比如根据工作任务“1.负责室内设计的管理;2.负责管控室内设计的风格和相关部门进行交流协调。”生成其对应的专业要求。

在步骤3中:基于工作任务的高层语义表示,长短时记忆网络结合注意力机制对技能序列进行解码,具体包含如下步骤:

步骤3.1),注意力机制计算工作任务中每个词的注意力权重,得到工作任务中词语的注意力语义表示。

其中W

步骤3.2),基于工作任务中词语的注意力语义表示,利用长短时记忆网络作为技能解码器逐一解码出技能的隐层语义表示:

其中,解码器的最后一个隐层状态被用来初始化文本解码器。

步骤3.3),基于工作任务中词语的注意力语义表示和解码出的技能词隐层表示,在技能词典中得到技能词的概率分布:

其中,W

在步骤4中:基于工作任务的词向量和预测的技能词向量,采用多注意力机制联合训练,长短时记忆网络作为文本解码器,得到初步的文本词概率分布,具体包含如下步骤:

步骤4.1),利用长短时记忆网络作为文本解码器,逐一解码出技能需求文本的潜在语义表示:

g

其中,e

步骤4.2),注意力机制计算工作任务中每个词的注意力权重,得到工作任务中词语的注意力语义表示。

其中W

步骤4.3),注意力机制计算预测技能中每个词的注意力权重,得到预测技能中词语的注意力语义表示。

其中W

步骤4.4),基于工作任务中词语的注意力语义表示,预测的技能词注意力语义表示,前一个预测的文本词向量和解码出的文本词隐层语义表示,在文本词典中得到文本词的概率分布:

其中,W

在步骤5中:通过知识图谱引入技能信息的先验知识,与步骤4中的注意力机制联合训练,优化生成最终文本:

步骤5.1),根据对应的基本信息查找知识图谱中的技能词作为推荐,并初始化知识图谱技能词为向量形式:

O

S′

其中,f是单射的查询函数,emb()是初始化函数。

步骤5.2),注意力机制计算知识图谱技能中每个词的注意力权重,得到知识图谱技能中词语的注意力语义表示。

其中W

步骤5.3),基于工作任务中词语的注意力语义表示,知识图谱技能词的注意力语义表示和解码出的文本词隐层语义表示,在技能词表中得到技能词概率分布:

其中,W

步骤5.4),与步骤4中得到的词概率分布进行加权融和,加权和概率最大的预测为文本词。

P(Y

其中,λ是一个超参数。最终预测时,除了工作任务中对于专业起到很大影响的“室内设计”以外,生成的技能词和知识图谱的技能词,使得也非常相关的“环境艺术”也被生成出来。从而,使得最终的生成文本技能词更丰富且准确。

参考文献:

[1]Danielle H Lee and Peter Brusilovsky.2007.Fighting informationoverflow with personalized comprehensive information access:A proactive jobrecommender.In International Conference on Autonomic and Autonomous Systems,pages 21–21.

[2]Chuan Qin,Hengshu Zhu,Chen Zhu,Tong Xu,Fuzhen Zhuang,Chao Ma,Jingshuai Zhang, and Hui Xiong.2019.Duerquiz:A personalized questionrecommender system for intelligent job interview.In Proceedings of the 25thACM SIGKDD International Conference on Knowledge Discovery&Data Mining,pages2165–2173.

[3]Ying Sun,Fuzhen Zhuang,Hengshu Zhu,Xin Song,Qing He,and HuiXiong.2019.The impact of person-organization fit on talent management:Astructure-aware convolutional neural network approach.In Proceedings of the25th ACM SIGKDD International Conference on Knowledge Discovery&Data Mining,pages 1625–1633.

[4]Tong Xu,Hengshu Zhu,Chen Zhu,Pan Li,and Hui Xiong.2018.Measuringthe popularity of job skills in recruitment market:A multi-criteriaapproach.In Proceedings of the AAAI Conference on Artificial Intelligence,pages 2572–2579.

[5]Konstantin Lopyrev.2015.Generating news headlines with recurrentneural networks.

[6]Chen Xing,Wei Wu,Yu Wu,Jie Liu,Yalou Huang,Ming Zhou,and Wei-YingMa.2017.Topic aware neural response generation.In Proceedings of the AAAIConference on Artificial Intelligence,pages 3351–3357.

[7]Rui Meng,Sanqiang Zhao,Shuguang Han,Daqing He,Peter Brusilovsky,and Yu Chi.2017. Deep keyphrase generation.In Proceedings of the 55th AnnualMeeting of the Association for Computational Linguistics,pages 582–592.

[8]Li Dong and Mirella Lapata.2018.Coarse-to-fine decoding for neuralsemantic parsing.In Proceedings of the 56th Annual Meeting of the Associationfor Computational Linguistics,pages 731–742.

[9]Ratish Puduppully,Li Dong,and Mirella Lapata.2019.Data-to-textgeneration with content selection and planning.In The AAAI Conference onArtificial Intelligence,pages 6908–6915。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号