首页> 中国专利> 一种基于Web的网络信息资源整合方法

一种基于Web的网络信息资源整合方法

摘要

本发明公开了一种基于web的网络信息资源整合方法,包括以下步骤:将异构网络信息资源统一为标准XML数据源;将所述标准XML数据源进行第一层划分获得第一次划分结果,对该第一次划分结果进行第二层细分获得细分资源块;根据相关度对用户所需细分资源块进行排序;对排序后的所述用户所需细分资源块进行整合形成整合资源块并生成集成页面。本发明拓宽了网络信息资源整合的范围并可以根据需求的变化,将整合结果进行适时调整。

著录项

  • 公开/公告号CN103246719A

    专利类型发明专利

  • 公开/公告日2013-08-14

    原文格式PDF

  • 申请/专利权人 北京交通大学;

    申请/专利号CN201310152593.9

  • 申请日2013-04-27

  • 分类号G06F17/30;

  • 代理机构北京正理专利代理有限公司;

  • 代理人张文祎

  • 地址 100044 北京市海淀区上园村3号

  • 入库时间 2024-02-19 20:03:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-03-09

    授权

    授权

  • 2016-01-27

    著录事项变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20130427

    著录事项变更

  • 2013-09-11

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130427

    实质审查的生效

  • 2013-08-14

    公开

    公开

说明书

技术领域

本发明涉及软件技术领域。更具体地,本发明涉及一种基于Web的网络信 息资源整合方法。

背景技术

随着Web2.0的到来,网络信息资源数量急剧增加。面对这些大量的、分 布的、异构的资源,用户往往需要花费更多的时间获取有用信息。虽然现有技 术已日臻完善,但是仍无法很好地满足用户的需求。

Mashup是一种资源整合技术,它通过从网络中检索到的数据内容创建新 的服务,将来自不同网络资源的内容进行重组,进而生成方便用户的资源集成 界面。但是,如何管理信息集成结果,如何实现多数据源的Web相关应用数据 的关联问题等问题仍需解决。

RSS也是一种资源整合技术。用户可以在RSS聚合站点或RSS阅读器中 有针对性地订阅自己感兴趣的信息源。然而在处理大量的、繁杂的、冗余的网 络信息时,RSS订阅器会要求用户重复接收相似信息。另外,用户必须安装 RSS阅读器或登陆规定站点才可以使用服务。同时,用户在选择订阅内容时, 必须是整个板块的所有信息,可操控性也不高。

因此,基于Web的异构网络信息资源的整合方法尚待提升,使访问不同数 据源信息的过程更加智能化,进而可以满足用户快速、精确地访问资源的需求。

发明内容

本发明目的在于提供基于web的网络信息资源整合方法,将大量在结构和 语义上存在差异的网络信息资源基于用户的需求进行不断细分,进而,重新整 合。

具体的技术方案如下:

一种基于web的网络信息资源整合方法,包括以下步骤:

将异构网络信息资源统一为标准XML数据源;

将所述标准XML数据源进行第一层划分获得第一次划分结果,对该第一 次划分结果进行第二层细分获得细分资源块;

根据相关度对用户所需细分资源块进行排序;

对排序后的所述用户所需细分资源块进行整合形成整合资源块并生成集 成页面。

所述将所述标准XML数据源进行第一层划分获得第一次划分结果,对该 第一次划分结果进行第二层细分获得细分资源块进一步包括以下步骤:

根据访问行为将所述标准XML数据源划分为网络资讯类、电子商务类、 即时通信类、资讯共享类和其他类,保存为所述第一次划分结果;

将所述第一次划分结果按照URL前缀细分法、基于内容细分法、基于主 题细分法或基于服务细分法获得所述细分资源块。

所述根据相关度对用户所需细分资源块进行排序还包括以下子步骤:

计算所述用户所需细分资源块的相关系数,进一步包括:

(1)根据下列公式计算权值W(xij,az),

W(xij,az)=ω(xij)*(ln(F(xij,az))+1)*IEF(xij)

IEF(xij)=1+logNNi

其中,(xi,i=1,……K)表示第i个关键标准,K为该细分资源块az中的 关键标准的总个数,(xij,j=1,……N)表示第i个关键标准中的第j个影响因素, N为该细分资源块az中的影响因素总个数,az(z=1,……,z为整数)表示第z个 细分资源块;W(xij,az)表示所述影响因素在所述细分资源块az中的权值, 表示影响因素xij在所述关键标准xi中所占的权重,F(xij,az)表示所 述影响因素xij在所述细分资源块az中出现的频次,IEF(xij)是所述影响因 素xij的反比元素频率,Ni为关键标准xi的影响因素在细分资源块az中出 现的个数;

(2)根据下列公式计算关键标准xi的权重值W(xi),

W(xi)=Σj=1nW(xij)

所述权重值W(xi)为关键标准xi在影响所述相关度时所占的权重;

(3)按照下列公式计算两个细分资源块的相关系数RXY

RXY=|ΣXY-1kΣXΣY|[ΣX2-1k(ΣX)2][ΣY2-1k(ΣY)2]

其中,X为一个细分资源块中k个关键标准权重值的集合,Y为另一个 细分资源块中k个关键标准权重值的集合。

根据相关度对用户所需细分资源块进行排序还包括以下子步骤:

按照所述相关系数RXY的大小判定所述两个细分资源块之间的相关度强弱 并排序。

所述将所述标准XML数据源进行第一层划分获得第一次划分结果,对该 第一次划分结果进行第二层细分获得细分资源块进一步包括:

对所述细分资源块配置XSL模板。

所述对排序后的所述用户所需细分资源块进行整合形成整合资源块并生 成集成页面进一步包括:

对所述标准化XML集成模块配置集成的所述XSL模板。

所述将所述标准XML数据源进行第一层划分获得第一次划分结果,对该 第一次划分结果进行第二层细分获得细分资源块进一步包括:

为所述细分资源块定义关键词;以及,

所述根据相关度对用户所需细分资源块进行排序进一步包括根据所述关 键词检索出所述用户所需细分资源块。

本发明具有如下技术效果:

(1)相较于同一领域相关技术,本发明能够整合基于Web,并在结构和语 义上存在较大差异的网络信息资源,这在一定程度上打破了一般在线RSS聚合 器的格式限制,拓宽了网络信息资源整合的范围;

(2)基于模块化管理的思想,将已标准化的网络信息资源通过第一层划分、 第二层细分,最终形成能够直接满足用户需求的细分资源块。相较于其他管理 整合资源的方法,本发明能够精准定位用户需求,并可以根据需求的变化,将 整合结果进行适时调整。本发明的方法使得资源的管理过程更为简单、灵活;

(3)本发明采用两层分类方法细化网络信息资源,这样避免了依据传统的 单一因素细分方法带来的不完整、不适应和不规范。

附图说明

下面将参照附图并结合实施例对本发明进行具体说明。

图1为本发明方法流程图。

具体实施方式

下面参照附图并借助本发明的实施例,对本发明的技术方案做详细描述。

本发明基于Web的网络信息资源整合方法的包括以下步骤:

步骤S1、服务器将利用网络爬虫技术获取到的在结构上存在差异的网络信 息资源,按照相应的转换方式,将这些在结构上具有差异的网络信息资源统一 成一种标准XML数据源,并存储到本地。该标准XML数据源的表现形式举 例如下:

所述XML数据源的含义是:用于标记子文件使其具有结构性的标记语言, 可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定 义的源语言。所述将结构上具有差异的网络信息资源(简称异构资源)按照相 应的转换方式,统一成一种标准XML数据源是指:根据网络中存在的各类型 的资源,如数据库资源,Web Service资源,XML资源以及RSS资源分别按照 各自的方式进行转换,最终形成标准XML文件用于存储原来资源中所包含的 数据信息。具体的转换方式如下:

对异构资源中数据库资源的标准化处理方法:JSP通过建立与数据库的连 接从而将数据库中的资源提取形成webpage,然后通过webpage转化成标准 XML数据源,其中数据库资源的描述信息包括如数据来源、数据库地址、数 据库名等。对于数据库资源使用数据库表构成的描述信息还可以包括如表名、 列名等属性。服务器将数据库资源的所述描述信息分别对应保存到标准XML 文件中的数据来源、数据库地址、数据库名、表名、列名等属性中,然后将数 据库数据转换为标准的XML文件。具体实施示例如下:

<ModuleType>数据库资源</ModuleType>//数据标识

<Keyword>出版社</Keyword>//关键词

<DataResource>远程连接</DataResource>//数据来源

<DataType>SQL Server2000</DataType>//数据类型

<Address>211.71.68.69</Address>//数据库地址

<Database>书籍资料//数据库名

<Table>作者</Table>

<Column>作者姓名</Column>

<Column>书籍名称</Column>

……

<Table>出版</Table>

<Column>出版日期</Column>

<Column>书籍名称</Column>

……

</Database>

对异构资源中Web Service资源的标准化处理方法:根据下述转化方式, 通过建立Web Service提供的API接口的信息与标准化的XML之间的转换关 系,将属性与语义进行一对一的转化,从而将接口的信息形成标准化XML文 件,属于现有技术。实施方式即通过传递给服务器XML文件的地址路径(path)、 该web service的url、一个命名空间(targetnamespace)和传递的参数值,然后 调用webservicevisitor类,之后通过调用该web service来返回需要的信息。具 体实施示例如下:

<Module Type>Web Service资源</Module Type>//数据标识

<Keyword>查询IP所在城市</Keyword>//关键词

<Url>http://ip.vsafe.net/FunWs.asmx</Url>//Url信息

<Parameter>218.249.50.179</Parameter>//参数

<Result>北京</Result>//结果

….…

对异构资源中XML资源的标准化处理方法:以一种统一标准格式解析异 构资源中存在的不同类型的XML文件,将标准XML文件格式与XML资源的 对应属性关联,形成XML标准数据。比如通过采用基于XMLSchema的模式 映射转换方法,以一种统一标准格式解析该XML文件,形成XML标准数据, 保存到XML文件(即标准XML数据源)中。具体实施示例如下:

<Module Type>XML资源</Module Type>

<Keyword>news.bjtu.cn</Keyword>

<Resource>news.xml</Resource>

<Attribute>News1</Attribute>

<Value>我校召开基本标准检查总结会</Value>

……

对异构资源中RSS资源的标准化处理方法:由于RSS资源本身即标准的 XML文件,将各种网络资源的信息以XML格式保存,用户定制RSS资源时, 服务器将RSS资源的地址及RssFeed地址保存到标准XML文件中的 <RSSAddress>和<RSSFeed>中。显示数据模块时将RssFeed中的网页链接、标 题、摘要等解析到XML文件,以XML文件的方式读取,显示数据。。具体实 施示例如下:

<Module Type>RSS资源</Module Type>

<Keyword>finance.sina.com.cn</Keyword>

<RSSAddress>http://finance.sina.com.cn/nongye/nyhgjj/20121207/013913924 647.shtml</RSS Address>

<RSS Feed>中央1号文件或聚焦农业经营体制:不鼓励企业租地</RSS Feed>

……

步骤S2、根据访问行为,本发明将所述标准XML数据源进行第一层划分, 可以分为五类网络信息资源作为第一次划分结果;

基于所述第一层划分结果,结合相对应的网络信息资源细分方法,将各类 网络信息资源进行第二层细分,形成更详细的细分资源块。

本发明优选采用配置XSL模板的方式管理所述细分资源块。XSL文件用 于抓取网页上的特定数据,这样的方式能够将网页上的几乎所有数据都能够准 确快速地获得。在本步骤中,XSL模板主要是用来获取细分资源块(XML文 件的形式)所包含的数据信息,有助于步骤S4整合标准化XML集成模块的页 面显示。更重要的是,通过XSL文件可以自由选取所述标准XML数据源里的 信息进行组合,可以满足用户适时调整的整合需求,其具体实施方式和有益效 果将在步骤S4中予以详细说明。这里举一个XSL文件的实例:

步骤S2所述的基于访问行为的第一层划分,是本发明基于强调用户针对 现有的主流网络信息资源具有的不同的访问动机和访问习惯将其分为了网络 资讯类、电子商务类、即时通信类、资源共享类和其他类,具体说明见表1:

表1

基于第一层划分结果将各类网络信息资源进行第二层细分,是本发明结合 各类网络信息资源的用户行为特征和资源本身具有的特征提出的URL前缀细 分法、基于内容细分法、基于主题细分法和基于服务细分法这四种第二层细分 方法。第一层划分中的所述五类网络资源可以按照例如表2与第二层细分中的 四种细分法对应:

表2

其中URL前缀细分法的特征是利用URL前缀的不同来对信息量大的网络 信息资源进行细分,比如网络资讯类。统一资源定位符URL能够唯一的表示 一个Web网页,URL的格式可以简单表示为:主机名+路径名+文件名,本发 明将主机名定义为URL前缀,而将具有相同URL前缀的网络信息资源细分为 一个细分资源块,并用相对应的URL前缀作为唯一定义该细分资源块的“关 键词”,对于用户而言,同一细分资源块所包含信息属于同一类别,例如:

URL为http://sports.sohu.com/20121203/n.shtmll和URL为 http://sports.sohu.com/399007.shtml#0的两个地址,具有相同的URL前缀,虽 然两者所代表的网页内容不同,但是对用户而言均属搜狐网关于体育方面的信 息,所以将其作为一个细分资源块,定义其关键词为“sports.sohu.com”。这样 可以方便用户按照其需求利用关键词进行检索。

如果采用根据网络信息资源所包含的主题、内容或服务三种方法细分资源 块,同样的选用唯一的“关键词”作为检索辨识。

步骤S3、根据所述关键词检索出能够满足用户整合所需的细分资源块,并 通过计算用户所需细分资源块相关系数,获得该用户所需细分资源块的相关度 判定结果从而按照该相关度排序。

步骤S3中,所述相关系数的模型,具体如下:

一个细分资源块有K个元素作为判定相关度的关键标准,则可用 (xi,i=1,……K)来表示每一个关键标准,每个关键标准有N个影响因素,则 可用(xij,j=1,……N)来表示每一个影响因素。关键标准和影响因素将在说明书 末尾的具体实施例中予以说明。

(1)计算影响因素xij在某一个细分资源块az(z=1,……,z为整数)中的权值 W(xij,az),权值W(xij,az)表示影响因素xij对关键标准xi的影响程度。

W(xij,az)=ω(xij)*(ln(F(xij,az))+1)*IEF(xij)

IEF(xij)=1+logNNi

其中,表示影响因素xij在关键标准xi中所占的权重, F(xij,az)表示影响因素xij在细分资源块az中出现频次,IEF(xij)是影 响因素xij的反比元素频率,即影响关键标准xi的所有影响因素在整个 影响因素集合中所占的比重。N为在细分资源块az中出现的影响因素的 总个数,Ni为影响关键标准xi的影响因素在细分资源块az中出现的个 数。

(2)计算关键标准xi的权重值W(xi),权重值W(xi)为关键标准xi在影响相关性时所占的权重。

W(xi)=Σj=1nW(xij)

(3)计算两个细分资源块a1、a2相关性,X为细分资源块a1中k个 关键标准权重值的集合,Y为细分资源块a2中k个关键标准权重值的集 合,RXY为细分资源块a1、a2的相关系数。

RXY=|ΣXY-1kΣXΣY|[ΣX2-1k(ΣX)2][ΣY2-1k(ΣY)2]

按照所述相关系数RXY的大小判定所述两个细分资源块之间的相关度强弱 并排序。其中,RXY的取值范围[0,1],RXY趋近于0说明两个细分资源块之间 的相关度越低,RXY趋近于1说明两个细分资源块之间的相关度越高。对于一 个具体的RXY值,一般地,本发明将两个细分资源块的相关度分为以下几种情 况:RXY≥0.8时,视为高度相关;0.8>RXY≥0.5时,视为中度相关; 0.5>RXY≥0.3时,视为低度相关;0.3>RXY≥0时,视为弱相关,即不相关。

步骤S4、根据一种自定义的规则比如按照相关度高低的原则,由高到低对 这些排序后的各个所述细分资源块进行整合形成一个标准化XML集成模块。 整合后的所述标准化XML集成模块包括数据域部分即为各所述细分资源块中 的数据域部分之和,以及各细分资源块的标识信息即ModuleID节点中的内容。 然后,对该标准化XML集成模块配置模板,以实现准确、快速获取整合资源 块的信息的目的,最后,返回整合后结果并生成集成页面。这里所配置的模板 其实是指由能够抓取这些细分资源快的多个XSL文件的集成,理论上是以 “CSS文件”的形式存在的,其目的就是抓取能够集成整个满足用户需求的界 面的数据。

下面是一个标准化XML集成模块例子的具体表现形式:当已知三个细分 资源块的相关度高低时,作如下整合:

<Module ID>0001</Module ID>//第二个细分资源块标识信息

<Module Type>XML资源</Module Type><Keyword>news.bjtu.cn< /Keyword>

<Resource>news.xml<Resource>

<Attribute>News1</Attribute>

<Value>我校召开基本标准检查总结会</Value>

<Module End>模块结束</Module End>

<Module ID>0002</Module ID>//第二个细分资源块标识信息

<Module Type>RSS资源</Module Type><Keyword> finance.sina.com</Keyword>

<RSSAddress>http://finance.sina.com.cn/nongye/nyhgjj/20121207/013913924 647.shtml</RSS Address>

<RSS Feed>中央1号文件或聚焦农业经营体制:不鼓励企业租地</RSS Feed>

<Module End>模块结束</Module End>

<Module ID>0003</Module ID>//第三个细分资源块标识信息

<Module Type>数据库资源</Module Type><Keyword>library.bjtu</ Keyword>

<Address>211.71.66.42</Address>

<Table>书籍信息</Table>

<Column>书籍名称</Column>

<Column>出版日期</Column>

<Module End>模块结束</Module End>

实施例

下面以一个简单的例子对步骤S3和S4进一步解释说明:

首先,选择了三个会影响不同资源模块相关度的关键标准:“结构、内容、 标识”。

其次,针对这三个关键标准,选择能够对其产生影响的影响因素(其中每 一个关键标准都选择两个影响因素),具体见下表:

表示影响因素xij在关键标准xi中所占的权重,比如:“链接(href)” 这个影响因素对“结构”这个关键标准的影响权重为0.24,而能够影响关键标 准“结构”的所有影响因素的权重和为“1”。其中,值是使用者根据自 身的要求确定的。

本实施例选择了新浪新闻、腾讯新闻、人人网和腾讯微博的资源模块来作 为实例说明。

统计各影响因素在这些细分资源块中的出现频次,因为资源是实时更新 的,在本实施例中考察的是平均频次:

  链接(href) 图片(Img) 人名 地名 “评论” “时间” 新浪新闻 2070 212 197 159 17 39 腾讯新闻 1521 149 152 242 10 30 人人网 507 166 64 26 125 133 腾讯微博 405 35 6 16 47 58

根据以下两个公式:

W(xij,az)=ω(xij)*(ln(F(xij,az))+1)*IEF(xij)

W(xi)=Σj=1nW(xij)

计算结果如表:

RXY=|ΣXY-1kΣXΣY|[ΣX2-1k(ΣX)2][ΣY2-1k(ΣY)2]

根据上面这个公式,我们最终可以得到以下的结果:

  RXY结论 新浪新闻,腾讯新闻 0.94927 高度相关 腾讯新闻,人人网 0.234466 弱相关 人人网,腾讯微博 0.532778 中度相关 人人网,新浪新闻 0.447349 低度相关

依据相关度进行整合:腾讯新闻+新浪新闻+腾讯微博+人人网

整合后的标准XML集成模块如下所示:

<Module ID>0001</Module ID>    /--细分资源块1开始--/

<Module Type>XML资源</Module Type>

<Keyword>news.qq</Keyword>    /--腾讯新闻--/

<Resource>http://news.qq.com/</Resource>

<Attribute>Entry1</Attribute>

<Value>全国新增2例H7N9禽流感病例1人死亡</Value>

<Attribute>Entry2</Attribute>

<Value>江苏卫生厅:板蓝根冲剂可预防H7N9禽流感</Value>

<Module End>0001</Module End>    /--细分资源块1结束--/

<Module ID>0002</Module ID>    /--细分资源块2开始--/

<Module Type>XML资源</Module Type>

<Keyword>news.sina</Keyword>    /--新浪新闻--/

<Resource>http://news.sina.com.cn/</Resource>

<Attribute>Entry1</Attribute>

<Value>上海新增1例人感染H7N9禽流感死亡病例</Value>

<Attribute>Entry2</Attribute>

<Value>世卫组织:H7N9已发生变异易于感染人体</Value>

<Module End>0002</Module End>    /--细分资源块2结束--/

<Module ID>0003</Module ID>    /--细分资源块3开始--/

<Module Type>数据库资源</Module Type>

<Keyword>weibo.qq</Keyword>    /--腾讯微博--/

<DataResource>http://t.qq.com</DataResource>

<Attribute>Entry1</Attribute>

<Value>走过青春的文字转播</Value>

<Attribute>Entry2</Attribute>

<Value>微博星座运势</Value>

<Module End>0003</Module End>    /--细分资源块3结束--/

<Module ID>0004</Module ID>    /--细分资源块4开始--/

<Module Type>XML资源</Module Type>

<Keyword>renren</Keyword>    /--人人网--/

<Resource>http://www.renren.com</Resource>

<Attribute>Entry1</Attribute>

<Value>恋上古诗词</Value>

<Attribute>Entry2</Attribute>

<Value>考研周计划</Value>

<Module End>0004</Module End>    /--细分资源块4结束--/

由上述例子可以看出,对于语义上也有差异的网络信息资源,通过相关度 的度量,实现异构网络信息资源整合的同时,在独立的细分资源块间也能够建 立一定的语义上的关联。

关于模板,由于步骤S2中配置了XSL模板,当用户需要调整整合需求, 比如,当用户需求发生局部变化,本发明只需要在原标准化XML集成模块和 相应的XSL模板中,进行移除无用资源、纳入有用资源等局部修改操作,即 可。这样的操作既简单快捷,又不会导致原标准化XML集成模块中的其他细 分资源块出错。

比如,在xml阅读器(一种工具)中打开新浪新闻,腾讯新闻,人人网, 腾讯微博等较为原始的xml数据源(用S1步骤转化过来的XML文件),然后 我们在这些xml文件中根据用户需求来选择有用信息(即获得有用信息在该 xml文件中所在位置的节点信息,比如:当要获取“新鲜事”这个有用信息时, 需要取得“人人网”所属的XML数据源文件中“新鲜事”所在位置的节点信 息)。

最后把获得的节点信息写入对应的XSL模板(一个XML数据源对应一个 XSL模板),而当用户整合需求发生改变时(如用户不想再订阅人人的信息), 我们只需要对XSL模板里的信息进行改写(即把关于人人网信息的节点信息 从XSL文件里删去),即实现了重新的整合。

应当理解,以上借助优选实施例对本发明的技术方案进行的详细说明是示 意性的而非限制性的。本领域的普通技术人员在阅读本发明说明书的基础上可 以对各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同 替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例 技术方案的精神和范围。本发明的保护范围仅由随附权利要求书限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号