首页> 中国专利> 一种学术期刊论文作者信息挖掘方法及系统

一种学术期刊论文作者信息挖掘方法及系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种学术期刊论文作者信息挖掘方法及系统。该方法中，首先选择目标学科领域，建立OWL领域本体；其次，从目标学科领域内的学术期刊论文中抽取作者信息；再次，对抽取的作者信息进行格式转换，并存入作者信息库中，并计算出唯一的作者ID；最后利用上述信息得到作者与学术论文关联矩阵，作者学术成长路线图，作者的合作者网络图，作者之间的学术合作距离，热点研究方向地图以及作者学术声望地图。本发明改变了作者信息挖掘方法的数据来源，在作者学术合作距离、热点研究方向的计算过程中引入OWL领域本体技术，提高了语义计算效果。

著录项

公开/公告号CN102609546A

专利类型发明专利
公开/公告日2012-07-25

原文格式PDF
申请/专利权人清华大学;国家图书馆;
展开▼

申请/专利号CN201210072645.7
发明设计人朝乐门;张勇;邢春晓;孙一钢;朱先忠;
展开▼

申请日2012-03-19
分类号G06F17/30(20060101);
代理机构11372 北京聿宏知识产权代理有限公司;
代理人王建军;钟日红
地址 100084 北京市海淀区100084信箱82分箱清华大学专利办公室
入库时间 2023-12-18 06:17:12

法律信息

法律状态公告日

法律状态信息

法律状态
2014-11-05

授权

授权
2012-09-26

实质审查的生效 IPC(主分类):G06F17/30 申请日:20120319

实质审查的生效
2012-07-25

公开

公开

说明书

技术领域

本发明涉及知识工程领域，具体涉及一种学术期刊论文作者信息挖掘方法及系统。

背景技术

学术期刊论文作者信息是指正式发表在期刊上的学术论文中给出的作者姓名、性别、出生年份、籍贯、职称和研究方向等基本信息，一般出现在论文首页的脚注或论文最后的尾注位置，如图1所示。相对于图书，学术期刊论文中作者信息具有内容简短、格式固定、用词规范等特点。

作者与文献之间的数量关系的分析是指以揭示作者与文献数量之间的关系，描述作者的科学生产力为目的信息分析方法。在作者与文献之间的数量关系的分析方面，比较有代表性的是洛特卡定律(Lotka’s Law)——作者数量与论文数量的关系遵循一种平方反比规律，即：F(x)＝C/x2，其中x、F(x)， C分别代表论文数、写x篇论文的作者占作者总数的比例和常数。在洛特卡定律的基础上，非拉奇等学者提出了影响洛特卡分布的两个因素：一是研究者本人所处的时代或环境直接影响着研究结果；二是统计样本中的作者数量与研究结果有关。作者与文献之间的数量关系分析的优点是较好地揭示了作者频率与论文数量之间的关系，缺点是没有分析作者的其他信息，包括出生年份、籍贯、职称、研究方向等信息。

普赖斯利用每位作者合作数量的分布来研究合作问题，得出了如下方程：

$Σ_{m = 1}^{I} n (x) = \sqrt{N}$

其中n(x)表示撰写x论文的作者数；I＝nmax为该领域内最高产作者的论文总数；N为全部作者的总数。M＝0.749(nmax)0.5。在普赖斯的研究基础上，学者们提出了合作度、合作率的计算公式，具体如下：

尽管上述方法各自有其自身的优缺点，并且各自在不同的情况下有成功运用的案例，但是它们无法满足学术论文作者简介信息挖掘的特殊需要：首先，学术期刊论文中的作者简介信息的内容具有特殊性。其次，学术期刊论文中的作者简介信息的位置具有特殊性。再次，学术期刊论文中的作者简介信息的格式具有特殊性。最后，学术期刊论文中的作者简介信息的用词具有特殊性。

发明内容

针对现有技术中存在的上述问题，本发明提供了一种学术期刊论文作者信息挖掘方法及系统。

本发明提供了一种学术期刊论文作者信息挖掘方法，包括：

步骤1，选择目标学科领域，建立OWL领域本体；

步骤2，从目标学科领域内的学术期刊论文中抽取作者信息；

步骤3，对抽取的作者信息进行格式转换，并存入作者信息库中，并计算出唯一的作者ID；

步骤4，根据作者ID和论文ID计算作者与学术论文关联矩阵；

步骤5，根据作者与学术论文关联矩阵、研究方向和年份计算作者在同一研究方向的累计发表论文绝对数量并生成作者学术成长路线图；

步骤6，根据作者与学术论文关联矩阵得到作者的合作者网络图；

步骤7，根据作者的合作者网络图计算作者之间的学术合作距离；

步骤8，根据OWL领域本体、作者ID、研究方向及其热点程度生成热点研究方向地图；

步骤9，作者学术声望地图生成模块，用于根据作者ID以及作者的合作者网络图生成作者学术声望地图。

在一个示例中，步骤1中，OWL领域本体包含领域术语之间的继承关系、等同关系和集合运算关系。

在一个示例中，步骤2中，作者信息包括作者姓名、性别、出生年份、籍贯、职称、研究方向、论文标题、期刊名称、发表时间以及作者所在单位；步骤3中，唯一的作者ID包括作者的姓名、出生年份、性别、籍贯、所在单位名称以及随机码。

在一个示例中，步骤4中，作者与学术论文关联矩阵S_m×n＝(s_ij)_m×n，其中i和j分别为论文ID和作者ID，m和n分别代表论文篇数和作者人数，s_ij代表作者权重，作者权重的计算公式如下：

$S (i, j) = (\begin{matrix} 0 & n = 0 \\ \frac{1}{n} & n > 0 \end{matrix}),$ 其中，S(i，j)为第i个作者在第j篇论文中的作者权重，n为第i个作者在第j篇论文中的排名次序，n＝1，2，3，...， N。

在一个示例中，步骤5中，第i个作者在研究方向z上的累积发表论文绝对数量y的计算公式如下：

其中N为第i个作者在研究方向z上发表的论文总数，S(i，j，z)为第i个作者在第j篇论文中的作者权重；两个研究方向之间存在继承关系、等同关系或集合运算关系则判定为同一研究方向。

在一个示例中，步骤6中，作者合作网络图包括作者集合和论文集合，作者为结点，论文为纽带，两个结点之间的加权值计算方法如下：

D(i，j，k)＝|S(i，k)-S(j，k)|；

其中，D(i，j，k)为第i个作者和第j个作者在第k篇论文中的权重之差，W(i，k)和W(j，k)分别为第i个作者和第j个作者在第 k篇论文中的权重。

在一个示例中，步骤7中，作者之间的学术合作距离的计算公式如下：

$L (i, j) = Σ_{k = 0}^{N} (k \times S (k, k + 1)),$ 其中L(i，j)为结点i和结点 j对应的作者之间的学术合作距离，k为作者合作网络图中在结点i和结点j之间最短路径上存在的中间结点，N为中间结点的个数。

在一个示例中，根据下式生成热点研究方向地图：

$H (i) = π \times {(Σ_{k = 0}^{n} (H (k) \times D (i, k))}^{2},$ 其中n为从事第i个研究方向的子类研究方向的作者个数，(H(k)为第k个子类的研究方向的热点程度，D(i，k)代表研究方向i和研究方向k之间的最短路径上的中间结点数，H(0)代表第i个研究方向上的相对作者人数，D(i，0)＝1； OWL本体中的叶结点对应的研究方向为子类研究方向。

在一个示例中，作者学术声望地图以第一作者为传播者结点，以合作者为接受者结点的有向图；“作者学术声望的计算方法如下：

$I (i) = (Σ_{k = 0}^{n} (I (k) \times D (i, k)));$

其中，I(i)为第i个作者的声望，n为第i个作者的合作作者人数， k为第i个作者的第k个合作者，D(i，k)为第i个作者与第k个作者之间的距离，I(0)代表与第i个作者直接合作人数，且D(0，k)＝1。

本发明提供了实现上述方法的系统，包括ETL模块、领域本体、唯一标识模块、作者与学术论文关联矩阵计算模块、作者学术成长路线图生成模块、作者合作网络图生成模块、学术合作距离生成模块、热点研究方向地图生成模块以及作者学术声望地图生成模块；

ETL模块，用于从目标学科领域内的学术期刊论文中抽取作者信息，对抽取的作者信息进行格式转换并存入作者信息库中；

领域本体为根据所选择的目标学科领域所建立OWL领域本体；

唯一标识模块，用于计算出唯一的作者ID；

作者与学术论文关联矩阵计算模块，用于根据作者ID和论文ID计算作者与学术论文关联矩阵；

作者学术成长路线图生成模块，用于根据作者与学术论文关联矩阵、研究方向和年份计算作者在同一研究方向的累计发表论文绝对数量并生成作者学术成长路线图；

作者合作网络图生成模块，用于根据作者与学术论文关联矩阵得到作者的合作者网络图；

学术合作距离生成模块，用于根据作者的合作者网络图计算作者之间的学术合作距离；

热点研究方向地图生成模块，用于根据OWL领域本体、作者ID、研究方向及其热点程度生成热点研究方向地图；。

作者学术声望地图生成模块，用于根据作者ID以及作者的合作者网络图生成作者学术声望地图。

综上，本方法的主要优点在于：1)突破传统文献计量和信息计量方法对作者简介信息的重视不够的现象，提出了一种面向学术论中的作者简介的信息挖掘方法，改变了作者信息挖掘方法的数据来源。2)在作者学术合作距离、热点研究方向的计算过程中引入OWL领域本体技术，提高了语义计算效果。 3)提出了基于作者简介信息的作者唯一标识码、学者成长路线、学术合作距离、热点方向的计算方法，拓展了作者信息挖掘的研究视角。因此，与前述的文献计量和信息计量方法相比，本方法可以更好地满足学术论文作者信息挖掘的需要。

附图说明

下面结合附图来对本发明作进一步详细说明，其中：

图1是本发明所述学术论文中的作者简介信息示意图；

图2是本发明所述学术论文作者信息挖掘基本步骤示意图；

图3是本发明所述学术论文作者信息挖掘系统的E-R图；

图4是本发明所述“作者与学术论文关联矩阵”示意图；

图5是本发明所述“作者学术成长路线图”示意图；

图6是本发明所述“作者合作网络图”示意图；

图7是本发明所述“作者学术合作距离矩阵”示意图；

图8是本发明所述“热点研究方向地图”示意图；

图9是本发明所述“作者学术声望地图”的示意图；

图10是本发明所述“学术论文作者信息挖掘系统”的示意图。

具体实施方式

本发明提出了学术期刊论文作者简介信息挖掘方法如图2所示，该方法包括下述步骤：

步骤(1)，根据需求选择特定学科领域，采用OWL技术建立领域本体。在构建领域本体时需要考虑与本领域研究方向对应的术语及其相互关系。领域本体的形式化表示必须指明类(或属性)之间的继承、等同、交叉关系、属性与类之间的所属关系、类与实例之间对应关系、属性间的传递、对称、函数和反函数关系、类集合运算关系。

步骤(2)，从特定领域学术期刊论文中抽取作者简介信息，包括作者姓名、性别、出生年份、籍贯、职称、研究方向、论文标题、期刊名称、发表时间、作者所在单位。不同信息的抽取位置可能有所不同。作者姓名、性别、出生年份、籍贯、职称、研究方向等信息从学术论文的作者简介部分抽取；论文标题、期刊名称、发表时间和作者所在单位分别从对应的位置抽取。

步骤(3)，对抽取的作者简介信息进行格式转换，并存入作者信息库中。设计一个或多个信息表，用于存放作者信息；抽取后的作者姓名、性别、籍贯、职称、研究方向、论文标题、期刊名称、作者所在单位转换为字符串类型；抽取后的出生年份和发表时间转换为日期类型；格式转换后，将作者信息放入对应的信息表。

步骤(4)，计算作者唯一标识码，识别同一个作者和区分不同作者。通过对计算姓名、出生年份、性别、籍贯、职称、研究方向、作者所在单位进行函数计算，得出每个作者的唯一标识码；将唯一标识存入作者信息表中。

步骤(5)，以论文ID为行、作者ID为列，计算出“作者与学术论文关联矩阵”，即S_m×n＝(s_ij)_m×n，其中i和j分别为论文ID和作者 ID，m和n分别代表论文篇数和作者人数，s_ij代表“作者权重”。“作者权重”s_ij由作者在对应学术论文中的排名次序决定。下述内容中，除明确指出的除外，在计算时提到的作者均为作者ID。

步骤(6)，根据“作者与学术论文关联矩阵”，x轴为年份，y轴为第i个作者在研究方向z上的“累积发表论文绝对数量”，采用函数 y＝f_Subj(x，z，i)生成“作者学术成长路线图”。研究方向z上的“累积发表论文绝对数量”由已发表论文数量和论文中的作者排名次序决定。判断是否为同一个研究方向的方法如下：首先，从数据库中读取论文发表时的研究方向，并与领域OWL本体进行映射；其次，判断研究方向之间是否存在继承(<rdfs：subclassOf>)、等同 (<owl：equivalentClass>)、集合运算(<owl：disjointWith>、 <owl：unionOf>、<owl：intersectionOf>、<owl：complementOf>)或实例关系(<rdf：Description>、<rdf：type>)；最后，如果存在以上关系，则认为同一个研究方向，否则认为不同的研究方向。

步骤(7)，生成“作者合作网络图”。“作者合作网络图”是以作者为行动者结点，论文为纽带的加权图。因此，“作者合作网络图” 包括两组信息：一组是作者集合N＝{n₁，n₂，....n_N}，其中N为作者数；另一组是论文集合L＝{l₁，l₂，....，l_n}，其中L为论文数。作者合作网络图中的每一个纽带的权重值由两个结点代表的作者在纽带代表的论文中的权重之差的绝对值决定。

步骤(8)，计算作者之间的“作者学术合作距离”。以“作者合作网络图”为基础，计算作者之间的学术合作距离值，并生成“作者学术合作距离矩阵”。作者间的学术合作距离值由连接作者的最短路径上的结点个数和边上的权重决定。

步骤(9)，生成“热点研究方向地图”。以OWL领域本体为基础，以研究者为结点、研究方向为纽带，生成“热点研究方向地图”。，” 研究方向的热点程度”由两个变量决定：一是从事该研究方向、子类研究方向的作者人数；二是子类研究方向与结点所代表的研究方向之间的距离。判断同一个研究方向、其子类方向的方法是研究方法映射到OWL 领域本体后，领域本体中是否存在<rdfs：subclassOf>或 <owl：equivalentClass>。

步骤(10)，计算作者学术声望。以第一作者为传播者结点，同一篇论文中的其他合作作者为接受者结点，生成“作者学术声望地图”。作者学术声望值由与该作者直接合作的作者数量和每个合作者的声望决定。

下面结合附图和实例，对本发明的具体实施方式作进一步详细说明。以下实例用于说明本发明，但并不用来限制本发明的范围。

如图2所示，学术论文作者信息的挖掘需要OWL领域本体技术的支持。因此，在分析学术论文作者信息之前，需要准备领域本体。构建 OWL领域本体时，采用标记<rdfs：subclassOf>、<owl：equivalentClass>、 <owl：disjointWith>分别标识类之间的继承、等同、交叉关系；采用标记 <rdfs：subPropertyOf>、<owl：equivalentProperty>、<owl：inverseOf>分别表示属性之间的继承、等同、互逆关系；采用标记<rdfs：domain>、 <rdfs：range>分别表示属性与类之间关系；采用标记<rdf：Description>、 <rdf：type>表示类与实例之间关系；采用标记owl：TransitiveProperty、 owl：SymmetricProperty、owl：FunctionalProperty和 owl：InverseFunctionalProperty分别表示属性间的传递、对称、函数和反函数关系；采用标记<owl：unionOf>、<owl：intersectionOf>、 <owl：complementOf>表示集合运算关系。

如图3所示，抽取和转换后的作者姓名、性别、出生年份、籍贯、职称、研究方向、论文标题、期刊名称、发表时间、作者所在单位信息分别存入作者表、论文表、论文与作者对照表、职称表、作者与职称对照表、部门表、作者与部门对照表、研究方向表、作者与研究方向对照表、期刊表等十个关系表中。上述十个关系表的模式分别为：作者(作者ID，作者姓名，出生年月，籍贯)、论文(论文ID，论文题目，期刊ID，发表日期)、作者与论文对照表(作者ID，论文ID、作者排名)、职称(职称ID，职称名称)、作者与职称对照表(职称ID，作者ID，论文ID)、部门(部门ID，部门名称，所在城市，邮编)、作者与部门对照表(作者ID，部门ID，论文ID)、研究方向(研究方向ID，研究方向名称，论文ID，作者ID，本体URI)、作者与研究方向对照表 (研究方向ID，作者ID，论文ID)、期刊表(期刊名称、ISBN、创办日期)。

作者唯一标识码由姓名、出生年份、性别、籍贯、所在单位名称字符串决定，具体计算公式如下：

AID(i)＝StrConn(NameStr(N(i))，BirthStr(Y(i))，SexStr (S(i))，AffStr(A(i))，Ram(i))，其中AID(i)为第i个作者的唯一标识码，N(i)、Y(i)、S(i)、A(i)分别代表第i 个作者的姓名、出生年份、性别、籍贯和所在单位名称，函数NameStr ()、BirthStr()、SexStr()、AffStr()分别为作者姓名、出生年月、性别和所在单位的散列函数，Ram()为一个五位随机码，用于区分在同一个单位的同名作者。

如图4所示，以论文ID为行、作者ID为列，计算出“作者与学术论文关联矩阵”，即S_m×n＝(s_ij)_m×n，其中i和j分别为论文ID和作者 ID，m和n分别代表论文篇数和作者人数，s_ij代表“作者权重”。“作者权重”s_ij由作者在对应学术论文中的排名次序决定。“作者权重”的具体计算公式如下：

$S (i, j) = (\begin{matrix} 0 & n = 0 \\ \frac{1}{n} & n > 0 \end{matrix})$ (其中，S(i，j)为第i个作者在第j篇论文中的作者权重，n为第i个作者在第j篇论文中的排名次序，n＝1，2，3，...， N)。

如图5所示，“作者学术成长路线图”是二维曲线图，x轴为年份， y轴为第i个作者在研究方向z上的“累积发表论文绝对数量”，采用函数y＝f_Subj(x，z，i)自动生成“作者学术成长路线图”。“第i个作者在研究方向z上的累积发表论文绝对数量y的具体计算公式如下：

$y = f_{Subj} (x, z, i) = Σ_{j = 0}^{N} S (i, j, z),$ 其中N为第i个作者在研究方向z上发表的论文总数，S(i，j，z)为第i个作者在第j篇论文中的“作者权重”。其中，判断是否同一个研究方向的方法如下：首先，从数据库中读取论文发表时的研究方向，并与领域OWL本体进行映射；其次，判断研究方向之间是否存在继承(<rdfs：subclassOf>)、等同 (<owl：equivalentClass>)、集合运算(<owl：disjointWith>、 <owl：unionOf>、<owl：intersectionOf>、<owl：complementOf>)或实例关系(<rdf：Description>、<rdf：type>)；最后，如果存在以上关系，则认为同一个研究方向，否则认为不同的研究方向。

如图6所示，“作者合作网络图”是以作者为行动者结点，论文为纽带的加权图。“作者合作网络图”包括两组信息：一组是作者集合 N＝{n₁，n₂，....n_N}，其中N为作者数；另一组是论文集合L＝{l₁，l₂，....，l_n}，其中L为论文数。在此加权图中的权数为两个结点代表的作者在纽带代表的论文中的权重之差的绝对值，计算方法如下：

D(i，j，k)＝|S(i，k)-S(j，k)|

其中，D(i，j，k)为第i个作者和第j个作者在第k篇论文中的权重之差，W(i，k)和W(j，k)分别为第i个作者和第j个作者在第 k篇论文中的权重。

如图7所示，“作者学术合作距离矩阵”的行和列均为作者ID，元素值为学术合作距离值。作者间的学术合作距离值由连接作者的最短路径上的结点个数和边上的权重决定。计算作者之间的学术合作距离的公式如下：

$L (i, j) = Σ_{k = 0}^{N} (k \times S (k, k + 1)),$ 其中k为在结点i和j之间最短路径上存在的中间结点，N为中间结点的个数。

如图8所示，“热点研究方向地图”是以OWL领域本体为基础，研究方向为结点，研究方向之间的语义关系为纽带，“研究方向的热点程度”由两个变量决定：一是从事该研究方向、子类研究方向的作者人数；二是子类研究方向与结点所代表的研究方向之间的距离。在计算热点程度的基础上，以热点程度作为结点面积大小值的自变量，生成热点研究方向地图。研究方向的热点程度的计算方法如下：

$H (i) = π \times {(Σ_{k = 0}^{n} (H (k) \times D (i, k))}^{2},$ 其中n为从事第i个研究方向的子类研究方向的作者个数，H(k)为第k个子类“研究方向的热点程度”，D(i，k)代表研究方向i和研究方向k之间的最短路径上的中间结点数，H(0)代表第i个研究方向上的作者人数，且D(i，0)＝1。判断是否同子类研究方向的方法如下：首先，从数据库中读取论文发表时的研究方向，并与领域OWL本体进行映射；其次，判断研究方向之间是否存在继承(<rdfs：subclassOf>)；再次，如果存在继承关系，则认为是子类研究方向，否则认为不是子类关系；接着，如果存在子类研究方向，进一步判断子类研究方向是否还存在更小的子类方向。依次类推，至到OWL本体中的叶结点对应的研究方向为止。

如图9所示，“作者学术声望地图”是以第一作者为传播者结点，其他合作者为接受者结点的有向图。“作者声望”由与该作者直接合作的作者数量和每个合作者的声望决定，具体计算方法如下：

$I (i) = Σ_{k = 0}^{n} (I (k) \times D (i, k))$

其中，I(i)为第i个作者的声望，n为第i个作者的合作作者人数， k为第i个作者的第k个合作者，D(i，k)为第i个作者与第k个作者之间的距离。I(0)代表与第i个作者直接合作人数，且D(0，k)＝1。

本发明的系统如图10所示，包括ETL模块、领域本体、唯一标识模块、作者与学术论文关联矩阵计算模块、作者学术成长路线图生成模块、作者合作网络图生成模块、学术合作距离生成模块、热点研究方向地图生成模块以及作者学术声望地图生成模块；

数据提取、转换和加载(ETL)模块，用于从目标学科领域内的学术期刊论文中抽取作者信息，对抽取的作者信息进行格式转换并存入作者信息库中；