首页> 中国专利> 一种基于多层感知机的中文人名判定性别的方法

一种基于多层感知机的中文人名判定性别的方法

摘要

本发明属于人工智能技术领域,具体公开了一种基于多层感知机的中文人名判定性别的方法,具体步骤为:在字词向量训练语料上采用word2vec得到中文人名用字的初始字向量和词向量;将中文人名语料按一定比例划分为训练语料和测试语料,其中训练语料再按一定比例划分为训练语料和验证语料;建立一个多层感知机模型并训练该用于进行中文人名性别判定的多层感知机模型;输入待判定性别的中文人名,进行性别判定及后续统计处理。本发明的判定方法仅通过用户的名字进行用户性别判定,原始数据容易获取,该方法借助多层感知机自动获取男女不同性别中文人名的用字特征,无需人工参与特征工程,节省了大量人力。

著录项

  • 公开/公告号CN112307744A

    专利类型发明专利

  • 公开/公告日2021-02-02

    原文格式PDF

  • 申请/专利权人 安阳师范学院;

    申请/专利号CN202011204834.6

  • 申请日2020-11-02

  • 分类号G06F40/216(20200101);G06F40/242(20200101);G06F40/284(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构41186 河南银隆律师事务所;

  • 代理人刘一闯

  • 地址 455000 河南省安阳市开发区弦歌大道436号

  • 入库时间 2023-06-19 09:58:59

说明书

技术领域

本发明属于人工智能技术领域,具体涉及一种基于多层感知机的中文人名判定性别的方法。

背景技术

网络环境中用户的性别是一项十分重要的信息,在内容推送、网络营销、商品推荐、广告投放等许多场景中都需要对不同性别的用户区别对待。例如,目前,网上购物已成为越来越多消费者的选择,而不同性别的消费者网购行为存在着很大不同,所以,网购平台在进行网络营销、商品推荐、广告投放时,需要针对男女不同性别用户进行区别处理。而网购平台容易获取到用户的真实姓名,一般不会也不便获取用户的性别信息,能否从用户的姓名预测出用户的性别信息?答案是肯定的,这正是本发明提供的技术方案。经分析,中文人名具有较强的性别区分性,通常人们从一个陌生人的名字可推测其是男性或女性,且准确率较高,本发明基于多层感知机从中文人名判定性别,得到的性别信息可以用于对该用户的内容推送、网络营销、商品推荐、广告投放等任务中,做到“有的放矢”。

秒针信息技术有限公司在其申请的专利文献“用户性别分析方法和装置”(专利申请号:201310526980.4,公开号:CN104598452A)中公开了一种用户性别分析方法和装置,该方法通过分析用户的个性域名来判断所述用户的性别。该发明通过统计样本数据集中用户个性域名中各顺位上不同字母和相邻若干顺位上不同字母组合按照性别出现的概率,再以所述概率作为参考数据,对未知用户性别的个性域名进行分析,判断用户性别。北京地平线机器人技术研发有限公司在其申请的专利文献“性别识别方法、装置及电子设备”(专利申请号:201810900838.4,公开号:CN109190495A)中公开了一种性别识别方法、装置及电子设备,该方法通过人脸识别进行第一识别,热成像进行第二识别。苏州三星电子电脑有限公司在其申请的专利文献“智能设备的性别识别方法与性别识别装置”(专利申请号:201711024078.7,公开号:CN107862263A)中公开了一种智能设备的性别识别方法,该方法通过获取目标人物肩部以上图像进行性别识别。这三项技术需要获取用户个性域名或身体部分甚至全部影像,然后借助获取的这些数据进行性别识别。

2014年发表在山东大学学报上的文献“一种基于中文人名用字特征的性别判定方法”提出一种利用朴素贝叶斯分类器对中文人名性别判定的方法,该方法需要对中文人名的用字特征及其组合进行统计分析,人工参与特征工程较多,耗时费力。鉴于很多场景获取用户个性域名或身体图像无法实现,人工特征工程耗时费力,本发明提出一种基于多层感知机的中文人名性别判定方法,可以用于用户性别判定。

发明内容

本发明的目的在于:提供一种基于多层感知机的中文人名判定性别的方法,可以仅通过用户的名字进行用户性别判定,该方法借助多层感知机自动获取男女不同性别中文人名的用字特征,无需人工参与特征工程,节省了大量人力。

本发明采用的技术方案如下:

一种基于多层感知机的中文人名判定性别的方法,该方法包括以下步骤:

(1)在字词向量训练语料上采用word2vec得到中文人名用字的初始字向量和词向量,具体步骤如下:

(11)对单字符切分的字词向量训练语料预处理后,建立字的词典,然后采用word2vec得到该语料的字向量;

(12)对已分词的字词向量训练语料预处理后,建立词的词典,然后采用word2vec得到该分词语料的词向量;

(2)将中文人名语料按一定比例划分为训练语料和测试语料,其中训练语料再按一定比例划分为训练语料和验证语料;

(3)建立一个多层感知机模型并训练该用于进行中文人名性别判定的多层感知机模型,具体步骤如下:

(31)构建一个多层感知机模型(模型结构如图1所示):该多层感知机的最左边是输入层,用于接收一个或批量中文人名的输入数据,中文人名的输入数据只包括人的名字,不包含姓氏,输入数据是中文人名的第一个字、第二个字及两者组合所对应的初始字向量和词向量;

该多层感知机的中间是若干隐藏层,用于对所输入的中文人名数据的特征进行提取计算;

该多层感知机的最右边是输出层,输出的是所输入的中文人名经过多层感知机模型判断之后属于男性和女性的概率,根据概率值可确定该人名所属性别;

(32)训练用于进行中文人名性别判定的多层感知机模型,得到中文人名训练语料中所有字的字向量与两字组合的词向量和各层权重参数与相应偏置项;

(4)输入待判定性别的中文人名,进行性别判定及后处理,具体步骤如下:

(41)通过字词向量拼接得到输入层输入的待判定性别的中文人名数据:将待判定性别的中文人名的第一个字的字向量、第二个字的字向量、两者组合所对应的词向量这三个向量首尾拼接得到的数据输入到步骤(3)已经训练好的多层感知机模型中;

(42)将输入数据经过训练好的多层感知机模型进行前向计算,经Sigmoid激活函数输出该中文人名分别属于男性、女性的概率,然后根据这两个概率值,输出待判定性别的中文人名的判定结果:男或女。

进一步的,所述步骤(11)中,为字的词典中的每个字分配序号,序号从1开始编号,0号保留用来表示没有出现在字的词典中的字。

进一步的,所述步骤(12)中,为词的词典中的每个词分配序号,序号从1开始编号,0号保留用来表示没有出现在词的词典中的词。

进一步的,所述步骤(2)中,每行中文人名语料包括两列,其中第一列是一个人的姓名,该姓名包含姓氏,第二列是该人的性别,即男或女。

进一步的,所述步骤(31)中,输入层输入的中文人名数据通过字词向量拼接得到,具体通过查询步骤(1)中得到的初始字向量、词向量,从而获取输入的中文人名的第一个字、第二个字及两者组合所对应的字向量和词向量,将第一个字的字向量、第二个字的字向量、两者组合所对应的词向量这三个向量首尾拼接得到要输入输入层的数据。

进一步的,所述输入层输入的中文人名数据为单字时,将单字人名的第一个字认为是“空”,为该字分配有对应的字向量,第二个字是该单字。

进一步的,所述输入层输入的中文人名数据为三字及以上时,这类人名的第一个字就是名字的第一个字,第二个字是名字的最后一个字。

进一步的,所述第一个字、第二个字两者组合的词向量如果在步骤(1)中没有查询到,则该组合的词向量为这两个字的字向量的平均。

进一步的,所述步骤(31)中,隐藏层的层数及各层的神经元个数可以根据中文人名训练数据情况设定,每层的激活函数设置为ReLU函数。

进一步的,所述步骤(31)中,因为从中文人名进行性别判定是二分类问题,所以输出层采用Sigmoid函数作为激活函数。

综上所述,由于采用了上述技术方案,本发明的有益效果是:本发明利用基于多层感知机的中文人名性别判定的方法,仅仅根据用户的名字信息,就得到了用户的性别,该方法无需人工参与特征工程,节省了大量人力,且判定结果准确率高。

附图说明

图1为本发明多层感知机模型结构的示意图;

图2为本发明实施例的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

实施例

中文人名用字具有较强的性别区分性。人的命名受历史、时代、社会、民族、家庭等诸多文化因素制约,中文人名有着极其丰富的文化内涵,凝聚了数千年华夏文化的历史积淀,蕴藏着中华民族的智慧和精神,充分显示了中华文明的浓厚底蕴。中文人名中传承着浓厚的华夏文化内涵,人名用字具有较强的性别区分性,透过人名便可知其是男性或女性。在中文人名中,男性以刚健有力为美,命名注重品格、事业前途,取名时希望他们像山一样屹立,譬如多用山、峰等字;像金石一样经得起磨练,譬如多用鑫、磊、刚等字;再譬如取“成、功、栋、伟、建”等字则希望能建功立业,成就一番事业。女性则渴望有花容月貌般的容颜,柔情似水般的性情,美玉般的肌肤等,所以,女性命名中多用“梅、桂、芳、兰、洁、雅、娟、娇、姣、珠、珍、玉”等字。

基于多层感知机自动从中文人名语料中提取区分性别的用字特征。从中文人名判定性别可以采用传统机器学习模型实现,例如,朴素贝叶斯分类器、最大熵模型等,但传统机器学习需要进行大量的人工特征工程,费时费力。本发明采用多层感知机,本质上就是多层全连接神经网络实现,多层感知机是一种模拟人脑进行分析学习的神经网络,模型可以自动学习数据中的特征表示完成特定任务,且往往可以媲美甚至超过人类的识别精度,因而被广泛应用于人工智能领域。多层感知机模型的基本结构包括输入层、隐藏层和输出层,隐藏层的数量可多可少。

基于以上内容,本实施例提供一种基于多层感知机的中文人名判定性别的方法,该方法包括以下步骤:

(1)在字词向量训练语料上采用word2vec得到中文人名用字的初始字向量和词向量,字词向量训练语料为1998年全年和2000年全年人民日报语料,对该语料进行预处理,预处理主要去除语料中的英文字符、阿拉伯数字、拼音等非中文字符,随后:

(11)对字词向量训练语料预处理后,建立字的词典,然后采用word2vec得到该语料的字向量,具体可采用gensim开源库中的word2vec工具对单字符切分预处理后的语料训练得到字向量,训练中字向量的维度设置为256,min_count设置为1。这样就得到了该语料中每个汉字的低维向量表示;为字的词典中的每个字分配序号,序号从1开始编号,0号保留用来表示没有出现在字的词典中的字;

(12)对已分词的字词向量训练语料预处理后,建立词的词典,然后采用word2vec得到该分词语料的词向量,具体可采用gensim开源库中的word2vec工具对分词并预处理后的语料训练得到词向量,训练中词向量的维度设置为256,min_count设置为5,这样就得到了该语料中出现次数不小于5的词语的低维向量表示;为词的词典中的每个词分配序号,序号从1开始编号,0号保留用来表示没有出现在词的词典中的词;

(2)将中文人名语料按9∶1的比例划分为训练语料和测试语料,其中训练语料再按5∶1的比例划分为训练语料和验证语料;每行中文人名语料包括两列,其中第一列是一个人的姓名,该姓名包含姓氏,第二列是该人的性别,即男或女;

中文人名语料中第一列虽然包含姓氏,但本技术方案中只使用人名,也就是人的名字。中文人名根据用字多少,可分为单字名、双字名、三字名、三字以上名。统计发现,中文人名以双字名为主,单字名次之,三字名及以上的极其少见。本实施例论述中记中文人名中的第一个字、第二个字分别为字

(3)建立一个多层感知机模型并训练该用于进行中文人名性别判定的多层感知机模型,具体步骤如下:

(31)构建一个多层感知机模型,模型结构如图1所示:该多层感知机的最左边是输入层,用于接收一个或批量中文人名的输入数据,中文人名的输入数据至包括人的名字,不包含姓氏,输入数据是中文人名的字

其中,输入层输入的中文人名数据通过字词向量拼接得到,具体通过查询步骤(1)中得到的初始字向量、词向量,从而获取输入的中文人名的第一个字、第二个字及两者组合所对应的字向量和词向量,将第一个字的字向量、第二个字的字向量、两者组合所对应的词向量这三个向量首尾拼接得到要输入输入层的数据;所述第一个字、第二个字两者组合的词向量如果在步骤(1)中没有查询到,则该组合的词向量为这两个字的字向量的平均;

例如:对姓名为“李志强”的数据,该人的名字为“志强”,该中文人名的字

其中,所述输入层输入的中文人名数据为单字时,将单字人名的第一个字认为是“空”,为该字分配有对应的字向量,第二个字是该单字;

例如:对姓名为“李娜”的数据,该人的名字为“娜”,为单字名,该中文人名的字

该多层感知机的中间是3层隐藏层,各层的神经元个数分别为128、64、64,用于对所输入的中文人名数据的特征进行提取计算,每层的激活函数设置为ReLU函数;

该多层感知机的最右边是输出层,输出的是所输入的中文人名经过多层感知机模型判断之后属于男性和女性的概率,根据概率值可确定该人名所属性别;因为从中文人名进行性别判定是二分类问题,所以输出层采用Sigmoid函数作为激活函数;

(32)训练用于进行中文人名性别判定的多层感知机模型,得到中文人名训练语料中所有字的字向量与两字组合的词向量和各层权重参数与相应偏置项;

(4)输入待判定性别的中文人名,进行性别判定及后处理,具体步骤如下:

(41)通过字词向量拼接得到输入层输入的待判定性别的中文人名数据:将待判定性别的中文人名的第一个字的字向量、第二个字的字向量、两者组合所对应的词向量这三个向量首尾拼接得到的数据输入到步骤(3)已经训练好的多层感知机模型中;

(42)将输入数据经过训练好的多层感知机模型进行前向计算,经Sigmoid激活函数输出该中文人名分别属于男性、女性的概率,然后根据这两个概率值,输出待判定性别的中文人名的判定结果:男或女。

例如:输入李志强,性别判定结果为“男”;

例如:输入李娜,性别判定结果为“女”。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号