首页> 中国专利> 基于基因表达式编程的计算机用户行为分析方法

基于基因表达式编程的计算机用户行为分析方法

摘要

本发明公开了一种基于基因表达式编程的计算机用户行为分析方法,包括:获取计算机用户的个人信息和进程信息;得到对应的原始数据并保存到数据库,根据进程信息获取对应的计算规则;将原始数据和计算规则结合并通过GEP算法,得到计算数据,将计算数据保存到数据库;将得到的计算数据与知识库中的前提条件匹配,得到推理结论,推理结论与数据库中已有的特征数据不同时,将推理结论作为特征数据保存在数据库,用推理结论代替计算数据重复匹配,直至推理结论与数据库中已有的特征数据相同;步骤五:将推理结论输出。本发明采用多库协同的模式,实时对用户的当前操作行为、浏览网页内容等进行分析,人工干预少,自动化程度和精度更高。

著录项

  • 公开/公告号CN106844515A

    专利类型发明专利

  • 公开/公告日2017-06-13

    原文格式PDF

  • 申请/专利号CN201611239027.1

  • 发明设计人 龙珑;邓伟;利基林;覃晓;

    申请日2016-12-28

  • 分类号G06F17/30;G06Q30/02;

  • 代理机构北京远大卓悦知识产权代理事务所(普通合伙);

  • 代理人靳浩

  • 地址 530001 广西壮族自治区南宁市明秀东路175号广西师范学院

  • 入库时间 2023-06-19 02:31:39

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-05

    授权

    授权

  • 2020-04-24

    著录事项变更 IPC(主分类):G06F16/2455 变更前: 变更后: 申请日:20161228

    著录事项变更

  • 2017-07-07

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20161228

    实质审查的生效

  • 2017-06-13

    公开

    公开

说明书

技术领域

本发明涉及信息技术领域。更具体地说,本发明涉及一种基于基因表达式编程的计算机用户行为分析方法。

背景技术

用户行为分析,是指在获得网站访问量基本数据的情况下,对有关数据进行统计、分析的过程。通过用户行为分析可以发现用户访问网站的规律,并将这些规律与网络营销策略等相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营销策略提供依据。

基因表达式编程(Gene Expression Programming,GEP)是是葡萄牙学者CandidaFerreira于2001年在遗传算法(Genetic Algorithm,GA)和遗传编程(GeneticProgramming,GP)的基础上发展的新概念。与用固定长度的线性串表示个体的GA和用长度和形状不同的非线性实体表示个体的GP不同,GEP是将个体编码成固定长度的线性串(基因组或染色体),然后将其转换为不同长度和形状的非线性实体,从而实现了用简单编码表示复杂问题,同时易于遗传操作,并且通过遗传操作所产生的新个体在语法上都是有效的,不需要对新个体进行有效性判断和处理,在速度上比GP提高了2~4个数量级。

现有的用户行为分析方案中实时对用户的当前操作行为、浏览网页内容等方面进行敏感性分析的涉及不多,一方面,在获取用户行为数据时,由于会不停的向各应用服务请求,面临巨大的数据请求下,往往会造成拥堵崩溃等问题。另一方面,数据库不够完整,需要随时补正修正,不利于分析统计多重行为的情况,不利于查询单个用户行为,并且对于大数据量的数据计算能力差,数据存储能力也差,容易造成系统瓶颈。因此考虑利用GEP的智能分析技术研究一种自动化程度和精度更高的计算机用户行为分析方法。

发明内容

本发明的一个目的是解决上述问题,并提供后面将说明的优点。

本发明还有一个目的是提供一种基于基因表达式编程的计算机用户行为分析方法,采用多库协同的模式,实时对用户的当前操作行为、浏览网页内容等方面进行敏感性分析,人工干预少,自动化程度和精度更高,系统运行更顺畅。

为了实现根据本发明的这些目的和其它优点,提供了一种基于基因表达式编程的计算机用户行为分析方法,包括以下步骤:

步骤一:获取计算机用户的个人信息和进程信息;

步骤二:由进程信息对应得到规则库中的计算规则,根据个人信息和进程信息得到对应的原始数据后,将原始数据保存到数据库;

步骤三:将获取的原始数据和计算规则结合知识库中的GEP算法,得到计算数据,将计算数据保存到数据库;

步骤四:将得到的计算数据与知识库中的前提条件进行匹配后,得到前提条件的推理结论,当推理结论与数据库中已有的特征数据不同时,将推理结论作为新的特征数据保存在数据库,用推理结论代替计算数据重复步骤四,直至推理结论与数据库中已有的特征数据相同时结束;

步骤五:将与数据库中已有的特征数据相同的推理结论作为结果输出。

优选的是,步骤三中得到计算数据具体包括以下步骤:

S1:自定义初始化参数,初始化参数包括种群大小N、子种群大小M、最大评价次数MAX_FE、函数符和终结符、基因长度、基因个数、变异概率、插串概率、插串长度以及重组概率,将获取的原始数据定义为初始种群Pt={X1,X2,…,XN},并根据计算规则计算初始种群中每个个体的适应度fi

S2:通过执行基因表达式编程的选择、变异、插串以及重组对种群Pt中的N个个体生成M个新个体,并将M个新个体组织成子种群Ot,根据计算规则计算Ot中的每个个体的适应度,其中适应度最大的个体为最优个体;

S3:将种群Pt中的N个个体和子种群Ot中的M个个体组成临时种群P’t,并根据计算规则计算临时种群P’t的中的每个个体的适应度,然后删除临时种群P’t中适应度最大的前M个个体,得到由N个个体组成的新一代种群Pt+1

S4:重复S2至S3直至评价次数达到MAX_FE后结束,结束时得到的新一代种群Pt+1即为计算数据。

优选的是,步骤二的数据库包括存储数据库、知识库以及规则库,存储数据库中分别存储有原始数据、计算数据和特征数据。

优选的是,步骤四的知识库中包括IF-THEN规则,IF-THEN规则中C=C(P),其中,C为结论,P为前提条件,n为每条规则的前提数,θ={AND,OR},且每条规则的可信度为CF,CF=[0,1]。

优选的是,步骤一中获取的进程信息包括实时进程和历史进程;

步骤二中的计算规则包括对应的实时进程的发生时间的录入和对是否执行对应的实时进程的判断。

优选的是,步骤二中的计算规则还包括周期的计算和对周期内历史进程中与实时进程中相同进程的发生频次的统计。

优选的是,步骤一中获取计算机用户的个人信息时,根据每个账户中与每个计算机用户一一对应的用户标识对应获得计算机用户的个人信息,其中,每个计算机用户对应一个或多个账户。

本发明至少包括以下有益效果:

本发明中利用GEP的智能分析技术强大的函数发现功能以及IF-THEN规则生成功能,建立一个智能化、集成化、协调化的专家系统,基于基因表达式编程对计算机用户行为进行分析,采用存储数据库、知识库以及规则库等多数据库协同的模式,实时对用户的当前操作行为、浏览网页内容等方面进行敏感性分析和监控,计算能力和存储能力强大,系统运行更加稳定、顺畅,人工干预少,自动化程度和精度更高,有助于实现对网络用户行为的监管,更好的净化网络环境,降低或避免不良网络信息对计算机用户尤其是未成年用户的有害影响。

本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明的基于基因表达式编程的计算机用户行为分析方法的流程示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。

如图1所示,本发明提供一种基于基因表达式编程的计算机用户行为分析方法,包括以下步骤:

步骤一即101:获取计算机用户的个人信息和进程信息;

步骤二即102:由进程信息对应得到规则库中的计算规则,根据个人信息和进程信息得到对应的原始数据后,将原始数据保存到数据库;

步骤三即103:将获取的原始数据和计算规则结合知识库中的GEP算法,得到计算数据,将计算数据保存到数据库;

步骤四即104:将得到的计算数据与知识库中的前提条件进行匹配后,得到前提条件的推理结论,当推理结论与数据库中已有的特征数据不同时,将推理结论作为新的特征数据保存在数据库,用推理结论代替计算数据重复步骤四,即重复与前提条件匹配的过程,直至得到的新的推理结论与数据库中已有的特征数据相同时结束;

步骤五即105:将与数据库中已有的特征数据相同的推理结论作为结果输出。

本发明中首先利用GEP技术进行用户访问模式分类,建立相关分类模型,分类模型中的分类数据可以离线保存供后面调用,然后利用知识库中的IF-THEN规则等前提条件,结合不同用户的分类数据进行推理,提高GEP技术应用的实时性,达到在线分析的目的。采用多库协同的模式,建立了数据库、规则库以及知识库等,实时对用户的当前操作行为、浏览网页内容等方面进行敏感性分析和监控,人工干预少,自动化程度和精度更高,系统运行更顺畅。

局域网中有2台主机S、C,其中,S为服务端,C为客户端;S上装载了包括知识库、存储数据库和规则库的数据库、调度控制器以及推理机,存储数据库中分别存储有原始数据、计算数据和特征数据,其中知识库中由GEP技术生成了一系列IF-THEN规则。

其中,存储数据库存储了有关的数据和结果,规则库存放着一些有关的数学计算模型、方法和程序,知识库存放着一些有关计算机网络领域中专家性、规律性的知识。推理过程采用数据驱动、正向的不确定性推理策略,推理的实质是把知识规则链接起来,形成一条或多条推理链。系统根据用户的测量结果,经过文字、图像的处理后,将相应的信息特征以存储数据的形式保存,作为输入的事实供推理机使用。

调度控制器是在网络模型的基础上,建立起的一种多库之间、知识库与推理机之间的协同策略。因为,对于每一个具体的项目来说,输入输出的形式都是固定的,推理关系也是相同的,不同的是推理过程中具体的内容,调度控制器是连接各信息库和功能模块的枢纽,主要依靠编程手段来实现的。

实施例1

用户希望借助服务端S监督未成年用户的游戏时间,如只能在晚上6~7点玩游戏,预先在服务端S上设置未成年用户只有在晚上6~7点才能打开游戏,其余时间不能打开游戏,成年用户则不限,此条信息作为规则存储在知识库中,即IF-THEN规则中C=C(P,CF),其中,前提条件P包括P1和P2,满足P1或P2能得到结论C即游戏进程运行,此条规则可信度CF为1。P1为未成年、晚上6~7点和进行游戏,对应前提数为3,三个前提同时满足才能使游戏进程运行,P2为成年和进行游戏,对应前提数为2,两个前提同时满足能使游戏进程运行。

当客户端C上未成年用户在夜晚9点开启客户端C打开音乐,然后点击游戏。

首先,服务端S从客户端C上获取用户的个人信息和实时进程信息后输入调度控制器,由于未成年用户在登录账户信息中显示用户为未成年用户,实时登录时间为夜晚10点,实时进程信息为音乐进程和游戏进程,调度控制器根据用户的个人信息和实时进程信息得到对应的原始数据为未成年、夜晚10点、音乐进程和游戏进程,计算规则为判断此时每个进程是否运行。

将获取的原始数据和计算规则结合,并通过知识库中的GEP算法,得到计算数据为未成年在夜晚10点音乐进程运行且游戏进程运行、未成年在夜晚10点音乐进程运行且游戏进程不运行、未成年在夜晚10点音乐进程不运行但游戏进程运行以及未成年在夜晚10点音乐进程不运行且游戏进程不运行,调度控制器将得到的计算数据与知识库中的前提条件即未成年用户晚上6~7点才能打开游戏进行匹配后,得到前提条件的推理结论为未成年在夜晚10点音乐进程运行且游戏进程不运行,此推理结论不存在于之前已有的特征数据中,将此推理结论作为新的特征数据保存到数据库,然后将未成年在夜晚10点音乐进程运行且游戏进程不运行与知识库中的前提条件即未成年用户b晚上6~7点才能打开游戏进行匹配后,得到未成年在夜晚10点音乐进程运行且游戏进程不运行这一推理结论,将此推理结论作为又一新的特征数据保存到数据库时发现与数据库中已有的特征数据相同,将未成年在夜晚10点音乐进程运行且游戏进程不运行这一推理结论作为结果输出,此时未成年用户b使用的客户端C上音乐进程能运行但游戏进程不能运行,从而达到对未成年用户的游戏时间进行监管的目的。同理可监管未成年用户的上网时间或浏览网页内容。

在另一种技术方案中,步骤三中得到计算数据具体包括:

S1:自定义初始化参数,初始化参数包括种群大小N、子种群大小M、最大评价次数MAX_FE、函数符和终结符、基因长度、基因个数、变异概率、插串概率、插串长度以及重组概率,将获取的原始数据定义为初始种群Pt={X1,X2,…,XN},并根据计算规则计算初始种群中每个个体的适应度fi

S2:通过执行基因表达式编程的选择、变异、插串以及重组对种群Pt中的N个个体生成M个新个体,并将M个新个体组织成子种群Ot,根据计算规则计算Ot中的每个个体的适应度,其中适应度最大的个体为最优个体。

S3:将种群Pt中的N个个体和子种群Ot中的M个个体组成临时种群P’t,并根据计算规则计算临时种群P’t的中的每个个体的适应度,然后删除临时种群P’t中适应度最大的前M个个体,得到由N个个体组成的新一代种群Pt+1

S4:重复S2至S3直至评价次数达到MAX_FE后结束,结束时得到的新一代种群Pt+1即为计算数据。

其中,适应度的引入是为了更好地表达知识的模糊性和不确定性,本系统的适应度区间定义为[0,1],适应度的大小由多位心理专家研究和系统反复实验相结合的途经来获取。

基于GEP的分析过程是一个动态学习的自适应过程,多次成功的分析结果可以作为新的分析规则存在,并可以根据系统积累的分析经验来自动弃用长期无效的规则,从而达到优化推理规则库,提高分析准确度的目的。

结合此种GEP算法可对复杂的或样本数目较多的用户行为进行分析,先分类再分析,并分别得到每一类的适应度使整体数据更加可靠,分析出的结论更具通用性,适用于更多的人群。

在另一种技术方案中,数据库包括存储数据库、知识库以及规则库,存储数据库中分别存储有原始数据、计算数据和特征数据。

在另一种技术方案中,知识库中包括由GEP算法生成的IF-THEN规则,IF-THEN规则中C=C(P),其中,C为结论P为前提条件,n为每条前提条件的前提数,θ={AND,OR},将每条规则的可信度赋值为CF,CF=[0,1]。每个IF-THEN规则中可包括多个前提条件,每个前提条件中可能包括多个前提,多个前提相互之间可能包含多种和/或关系。

在另一种技术方案中,步骤一中获取的进程信息包括实时进程和历史进程;

步骤二中的计算规则包括对应的实时进程的发生时间的录入和对是否执行对应的实时进程的判断。

结合包括实时进程和历史进程的原始数据和计算规则后续可以判断或根据实时进程的发生时间判断对应的实时进程是否执行,使收集的信息更加完整,使后续的推理能得到历史数据支持,更加可靠。

在另一种技术方案中,步骤二中的计算规则还包括周期的计算和对周期内历史进程中与实时进程中相同进程的发生频次的统计。可实现对较长周期内用户行为的分析,使分析有效性更加长久可靠,也可仅对一段时间计算机用户行为进行分析,长期或短期可根据用户的需要灵活选择。

在另一种技术方案中,步骤一中获取计算机用户的个人信息时,根据每个账户中与每个计算机用户一一对应的用户标识对应获得计算机用户的个人信息,其中,每个计算机用户对应一个或多个账户。按照与每个计算机用户一一对应的用户标识识别每个计算机用户,避免由于计算机用户切换不同账户引起获取的个人信息和进程信息不完整,使数据更加完整可靠。

实施例2

局域网中有服务端S,客户端a、b、c、d等,S上装载了包括知识库、特征数据数据库和规则库的数据库、调度控制器以及推理机。

服务端用户希望借助服务端S监管客户端用户在某一网络论坛上的不文明用语,将不文明用语如等过滤掉,如客户端用户发表的不文明用语m或n不显示,若在1小时内连续发表5次及以上含不文明用语的言论则禁言半小时,其他则不限,此条信息作为规则存储在知识库中,即第一个IF-THEN规则中前提条件P为言论含不文明用语m或n,满足P能得到结论C即不文明用语m或n不显示,发表的此条规则可信度CF为1。第二个IF-THEN规则中前提条件P为同一用户1小时内连续发表5次及以上含不文明用语的言论,结论C为禁言半小时。

当客户端C上某用户第一次在网络论坛上发表含词汇m的不文明用语时,得到原始数据为某用户在某一时间发表不文明用语m,计算规则为判读不文明用语m是否显示,并开始计时1小时内频次为1;

通过知识库中的GEP算法,得到计算数据为此用户发表的不文明用语m显示、此用户发表的不文明用语m不显示,与知识库中的前提条件即用户不能发表含词汇m或n的不文明用语进行匹配后,得到前提条件的推理结论为此用户发表的不文明用语m不显示,此推理结论不存在于已有的特征数据中,将此推理结论作为新的特征数据保存到数据库,然后将此用户发表的不文明用语m不显示与知识库中的前提条件即客户端用户发表的不文明用语m或n不显示进行匹配后,得到此用户发表的不文明用语m不显示这一推理结论,将此推理结论作为又一新的特征数据保存到数据库时发现与数据库中已有的特征数据相同,将此用户发表的不文明用语m不显示作为结果输出。

当用户再次发表不文明用语时,只需要经过1次推理即可得到此用户发表的不文明用语m不显示的结论,可见本发明的基于基因表达式编程的计算机用户行为分析方法是一个动态学习的自适应过程。

当用户在1小时内发表5次不文明用语时,根据第一个IF-THEN规则此用户发表的不文明用语m不显示,根据第二个IF-THEN规则得到推理结论为禁言半小时,从而根据多个规则更好的实时对用户的当前操作行为、浏览网页内容等方面进行敏感性分析和监管。期间,当用户切换其他账号发表不文明用语时,由于每个用户对应一个用户标识即多个账户之间相互关联,步骤一中获取计算机用户的个人信息时,统计信息的包括多个账户中的信息,因此即使用户切换其他账号发表不文明用语也能按照计算规则计入频次统计的数据中。

尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号