面向学术文献的知识挖掘方法研究

来源 :现代情报 | 被引量 : 0次 | 上传用户:jhq0327
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘要〕学术文献中包含的大量有价值的知识往往无法在摘要中体现出来。本文提出一种基于位置加权的核心知识挖掘方法,旨在以句为知识处理粒度,抽取正文中的核心句子作为独立的知识单元。该方法通过量化句子间的关联,将正文表示成一个以句子为节点,句子间关联为边的文本关系网络,提出基于章节的位置加权算法,结合社会网络分析方法,挖掘出文本中核心知识单元部分的句子。实验结果表明,该方法可以实现对文章核心章节中重要句子的抽取,达到初步预期效果。
  〔关键词〕学术文献;知识挖掘;方法;位置加权;知识抽取;文本网络;社会网络分析
  DOI:10.3969/j.issn.1008-0821.2017.05.009
  〔中图分类号〕G203〔文献标识码〕A〔文章编号〕1008-0821(2017)05-0047-05
  Research on Method of Knowledge Minning in Academic DocumentsWang KaiSun JiqingLi Nan
  (Institute of Science and Technology Information,East China University of
  Science and Technology,Shanghai 200237,China)
  〔Abstract〕There is abundant valuable knowledge inside academic documents that is not revealed in abstracts.This paper promoted a method of core knowledge discovery based on position weights,aiming to extract the core sentences as separated knowledge units in the main text with the processing size of sentence.By measuring the connection between sentences,the paper transformed main text into a text network that considers sentences as dots and connection between sentences as sides.An algorithm to compute position weights based on chapters was promoted in this paper.With the help of social network analysis,the paper could find sentences that revealed the core knowledge of the text.The result of the experiment showed that this method could realize the extraction of key sentences in the core chapter from the text,which is primarily expected.
  〔Key words〕academic documents;knowledge minning;method;position weight;knowledge extraction;text network;social network analysis
  互联网技术的发展使得信息,尤其是文本信息呈爆炸式的发展,在海量的文本信息面前,人们希望可以从中抽取出最关键最有价值的信息,并转化成知识进行存储应用。学术文献中包含大量有学术价值的知识,特别是期刊论文,凝聚着科学家的研究成果与智慧,论文中知识点非常丰富,而且比较新颖,实现自动对学术文献中的关键知识进行提取并利用是一个研究趋向。学术文献与其他类型的文献,如新闻、博客、网页等文献不同,学术文献具有独特的结构化特性,其基本形式为标题、摘要、关键词、正文、参考文献组成;而正文又通常包括引言、相关研究、方法、实验、结论几大部分。早期的研究主要是针对学术文献的题录信息来研究学术文献中所包含的主题内容,利用标题、关键词、参考文献以及摘要作为研究对象。摘要和关键词虽然可以对文献的内容进行高度概括和总结,但是却往往没有体现文献中的核心知识,这些核心知识往往包含在正文之中。为更好地挖掘文献中内涵的知识,本文提出一种位置加权的方法,以句子为粒度,将学术文献正文表达成一个句子为节点的文本网络,通过句间关系来抽取出学术文献中的核心知识。
  1相关研究
  知识抽取(Knowledge Extraction)是对蕴含于文献中的知识经识别、理解、筛选、格式化,从而把文献中的各个知识点抽取出来,是信息抽取的升华和深化[1]。温有奎,朱晓芸,文孝庭等人在国内较早提出了知识元的概念,表示知识单元是文章中可以表达知识且可以独立使用的最小单位,并对其的抽取规则进行了描述[2-5]。知识抽取的方法可以分为3大类:基于模式匹配的抽取方法、基于本体的抽取方法以及基于语义的抽取方法。
  1)基于模式匹配的抽取方法主要用于实体和属性的抽取,适用于有一定规则可循的抽取对象。Chunxia Zhang和Peng Jiang研究了如何对汉语语料进行定义抽取。他们通过设定句子模式,然后利用模式的匹配进行抽取;温有奎等利用学术文獻中创新点表述的句子结构特点对创新点进行抽取[6-7]。这种方法要求所抽取的知识表述具有一定的规则和模式,对于那些大量无规则的非结构化文本无法很好地完成抽取工作。   2)基于本体的抽取方法是通过建立本体描述概念与概念之间的关系,再基于建立好的本体在文档中抽取相匹配的知识内容。车海燕等提出基于本体主题的属性识别方法和基于本体属性约束的三元组元素识别方法,抽取出非结构化文本中隐含的知识元素,并找出元素间的属性关系[8]。本体是一个理想的可以表达领域内所有语义及语义关系的一种语料库,基于本体的抽取方法的效果好坏完全取决于本体建立的完善程度。基于语义的抽取方法是结合自然语言处理技术(Nature Language Processing,NLP)、语义Web、文本挖掘、机器学习、句法分析以及图论等理论与技术,深入到组成文档的词句和语法结构来理解文本所包含的语义。Dingding Wang等人指出常用的给句子打分的方法只把句子当作独立的对象研究而忽略了上下文中隐含的主题,而且打分的方法缺少清晰严格的概率解释,并提出一种使用贝叶斯算法的基于句子的主题模型进行多文档的自动摘要研究[13]。Rada Mihalcea结合基于图论的网页信息组织的3种常用算法:HITS、Positional Power Function和谷歌的PageRank算法,提出了以句子为节点、句子之间的关联为边的文本关系图方法,不仅考虑到句子内容的特征还考虑了句子之间的相互影响[14]。Dingding Wang等人提出了一种自动文档摘要方法,以词共现计算句子间的相似度,构建相似矩阵,再基于对称矩阵因式分解法对文本的句子进行聚类并从每类中抽取出目标句子组成摘要[15]。
  3)基于语义的抽取方法研究着重关注文本的语义,试图让计算机能够像人类一样理解文本,但是目前尚且没有一个可行且效果理想的抽取方法,但是对于文献中基于句子粒度的抽取方法从只考虑句子本身,慢慢发展到从文献整体研究句子与句子之间的联系来考量句子的重要程度。本文所采用的研究方法正是将正文看作是由句子构成的一个复杂文本网络,通过句子之间的联系去寻找文献中的核心模块。
  2核心知识抽取方法
  每一篇学术文献都有其核心的知识点,是其文章的学术价值所在,而这些核心知识往往没有在摘要中全面体现出来,仅从摘要无法反映文献的内含的所有知识。为能充分挖掘文献中包含的各知识点,本文提出了一种以句子为粒度的基于章节位置加权的核心知识抽取方法,抽取出学术文献中能反映文章核心知识的核心句子。
  21基础知识抽取
  211构建复杂句子网络
  以文献中的句子为粒度是本方法研究的核心。构建复杂句子网络是以句子为网络中的节点,以句子之间的关联度为节点间的边,连接构成一个网络结构。因此,计算句子之间的关联度是构建复杂句子网络的关键,句子关联度的计算效果如何直接决定了构成的句子网络所能反映的文本内容的质量。
  句子是学术文本中表达一个完整语义内容的最小单位,而句子从形式上是由词和语法结构组成。通过句子与句子之间复杂的关联关系可以反映出整个文本网络的关联情况,并且找出网络中核心的区块。本文采用在统计自然语言处理中被广泛接受和采用的方法,以词耦合数来计算两个句子之间的简单关联度。这种方法中,在对句子Si进行分词、过滤停用词等操作之后,每个句子Si被处理成由若干实义词组成的词集Si(W1,W2,…,Wn),若两个句子Sj和Sk的词集中都出现了相同的词W,那么这两个句子之间就出现了一个词耦合对,只要两个句子之间出现了至少一个词耦合对,就在Sj和Sk两个句子节点之间形成一条边。将文章中的句子两两进行如此处理计算,最终可以形成一个以句子为节点、句子相似度为边的句子网络。但是,这样方法形成的句子网络中每条边的价值都是相等,句子之间要么相似要么不相似,而在实际应用中,文本中句子间的相似度是有很大差异的。因此,在计算句子间相似度的时候,使用两个句子之间出现的词耦合对的次数作为句子间的相似度,若句子Sj和Sk之间有n个词耦合对,则Sj和Sk之间的相似度为n,由此形成的句子网络是带有权重的复杂句子网络[18]。
  句子之间的关联度除了用词关系进行描述,句子的语法结构也起着很大的作用。在学术文本中,两个句子之间的语义关联绝不仅仅由词来表现,句子内部以及句子之间还有语法结构来表现句子的语义。如“虽然…但是…”、“如果…就…”等复句结构,同样的词出现在从句和主句从能反映句子内容的程度并不一样。而句子之间往往会有类似“基于该理论,…”、“因此……”、“…该方法…”等代词和连词来表现句子之间紧密的联系,而这样的关联通过词耦合对的方法是很容易被削弱或忽略。
  212社会网络分析
  通过上述方法构成的复杂句子网络类似于一个社会网络,可以使用社会网络分析中对节点重要性的评价方法来寻找句子网络中的核心句子。常用的社会网络分析方法被称为度分析方法,以计算节点的中心度来评价节点的重要性,常用的中心度计算方法有点度中心度、中介中心度和接近中心度[20]。点度中心度用网络中与某节点有联系的节点的数量来衡量该节点在网络中的中心地位,如果一个节点与其他节点之间有直接的联系,则该节点就居于中心位置,有较大的“权力”;中介中心度通过某节点出现在其他两点之间的路径上的数目来衡量该节点的控制能力,如果一个节点出现在其他两个节点的路径上,则认为该节点处在网络中的重要地位;接近中心度通过某节点与其他节点的最短路径来反映该节点不受控制的能力[21-23]。
  学术文本中的核心句子是文章的叙述核心知识,应该处在网络关联的中心,其他句子通过核心句子相互产生关联。因此,本文使用中介中心度来寻找学术正文中的核心句子。
  22位置加权
  学术文献是结构性比较强的文献类型,作者在撰写的时候通常会按照章节把文章的内容分為几个部分。常见的学术文献的结构有引言、相关研究、方法、实验以及结论,但是不同学科不同类型的学术文献所包含的结构并不相同,理论性研究或综述一般没有方法和实验部分。
其他文献
含油污泥是由油、水、渣组成的稳定悬浮乳状胶体,其具体组分非常复杂,通常粘度较大,固液难以分离,处理难度较大,环境危害问题突出。热解法能够显著提高含油污泥资源化利用率
设计了一种防触电安全装置。在防触电安全帽外侧加装若干感应探头感应交流电。当检测探头在距离电气设备等带电体1~10 cm时,即可灯光报警。该防触电保护器使用可靠方便,还可
部分市政道路工程跨越松软土层,包括砂质土、有机质土或淤泥质黏性土等,影响工程施工质量。基于此,本文首先介绍几种市政道路工程软土地基处理技术措施,然后以某市政道路工程
互联网技术的勃兴推动着时代的前行,为契合新时代对技术发展的需求,数据处理技术也在不断完成着自我革新。因此产生了云的概念,云计算技术因其准入门槛低、高可靠性和灵活性突出的特点而成为通过Intermet提供的计算服务中的典范。在云计算领域中,由OpenStack所营造的虚拟生态场域,日渐显示出其强劲的生命力,不断激活着多元化的行业种类和多样派的业务场景,在推动开源云计算技术不断向前发展的同时,也为该领
[目的]研究大数据网络环境发展新形势下,通过概率分析判断导致危机爆发的关键环节,为网络舆情危机管理决策提供依据。[方法]使用贝叶斯模型作为分析工具,探究网络舆情危机关
研究目的:踝前撞击综合征(ankle anterior impingement syndrome)是慢性踝关节损伤中一种常见的疼痛综合征,常出现于长期处于跖屈状态时承重或受外力作用的运动员中。该慢性损伤持续影响着运动员竞技状态,需长期坚持治疗,我们应在早期采用合理的康复手段和康复计划,预防其损伤程度的加重,使其在日常训练和赛场上保持良好的竞技状态。本研究目的是观察经筋推拿联合踝关节力量训练是否对患
本文选取营养价值极高的花鲈(Lateolabrax japonicas)作为试验研究对象,分别探讨了两种单一型环保添加剂(甘露寡糖和发酵浒苔),以及一种组合型环保添加剂对花鲈生长、消化酶及免
一、 会议宗旨  情报学与情报工作发展论坛自成立以来,已成功举办两届,有效推动了情报学与情报工作的科学发展,并取得了良好反响与广泛肯定。大數据与人工智能正在重塑情报学与情报工作的内核与应用场景,为延续《南京共识》精神,把握转型与变革机遇,汇集并凸显情报领域的最新进展,推动我国情报学人与情报工作者的交流,创新情报学与情报工作的理论与实践,搭建年度性的全国情报学学术会议平台,形成学术传统,“新时代 新
当前,综合材料绘画的创作数量越来越多,相关技法也逐渐丰富、成熟,综合材料绘画形式呈多元化发展,吸引了众多艺术创作者进行综合材料绘画的创作,几乎成为当代绘画的主体。本文通过对传统绘画技法的研究,梳理出传统绘画技法对综合材料绘画形式的影响。论文首先介绍本研究的目的、意义、内容及方法。然后界定出本文中传统绘画的范围,梳理综合材料绘画的概念、发展历史和综合材料绘画与传统绘画之间的联系。文章的重点是通过研究
本论文围绕一锅法在合成噻唑化合物的应用,避免了分离催泪性化合物α-溴代酮对环境和实验人员的污染和伤害。使噻唑化合物的合成工艺更加绿色,操作更加简单。第一章:介绍了具