学术论文被引语句的识别方法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:wanganInsh888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子数据库的日益完善,格式化全文信息变得可获得,基于全文数据的引文内容分析成为可能。同时,随着自然语言处理等计算机技术的迅猛发展,利用计算机进行自动的引文内容处理得以实现,基于引文内容的文献研究已成为引文分析新的发展方向。但是,由于当前国内缺乏完善的引文内容数据库,基于引文内容的文献研究仍处于初步探索阶段,面向中文文献的相关研究更是少之又少。因此本文选取中文学术论文作为研究对象,通过计算引文内容与被引文献全文语句的文本相似度,查找每条引文内容的引用出处,以识别被引文献中学术影响力较大的观点句,即被引语句。本文首先介绍引文内容分析的相关理论和研究现状、文本相似度的基本概念和计算步骤等理论基础。接着介绍本文采取的两种相似度算法的基本思路与优缺点。然后介绍本研究被引语句识别实验方案的设计与具体实现模块。最后以“网络文学”研究领域为例,选取该领域中的50篇高被引学术论文及其引证文献作为实验数据集进行实验以及实验结果分析。分析发现:(1)基于两种模型的文本相似度算法在识别被引语句方面均是可行与有效的,且相对于复杂的基于LSI的相似度算法,基于VSM的相似度算法复杂度更低、效果更加稳定;(2)LSI算法中的k值与参与矩阵构建的特征项数量存在高度非线性正相关关系,且当k=300时,90%的样本集的LSI算法效果能达到最优。本研究实践了文本相似度计算方法在引文内容分析中的应用,为识别学术论文的被引语句提供了新的视角。
其他文献
新兴技术的高速发展使得知识产权与国际贸易的联系越来越密切,各国间产品、服务以及各种生产要素的贸易活动中涉及的知识产权含量的比重越来越大,知识产权或专利甚至在国际贸
我国民族省区多位于西部地区,由于历史、人文、地理位置、自然环境等因素,该区域居民生活条件和产业发展一直落后于我国东部发达地区。然而,西部民族省区的发展对于我国民族
零售商订货模型是运作管理的重要研究课题之一,自零售商订货问题提出以来,受到了广大学者的关注,其相关研究已拓展到了多个方面。经典的零售商订货模型研究均以零售商为完全
受国内外经济社会环境的影响,许多劳动力密集型的传统行业在经营过程中陷入困难境地,从而使员工的利益受到了不小的损失,在市场经济的飞速发展中对于企业员工的管理要求逐渐
随着科技进步、市场竞争、全球化及市场需求的个性化程度不断提高等因素,使得企业之间的竞争逐渐向供应链竞争转变。闭环供应链在节约资源、提高企业竞争力以及为消费者提供
谣言的传播会严重影响公众对事件的认知,当谣言关乎人们的实际生活时极易引起人们恐慌而做出非理性行为,扰乱正常的社会秩序,影响社会安定,甚至造成极其严重的经济损失。近几
迅速发展的社会网络服务使世界各地的人们进行信息交流和知识获取变得更加方便、快速,其中科研网络社区可以帮助科研工作者有效地了解研究领域的最新进展、解决研究遇到的困
本文介绍的经验模态分解方法主要针对语音信号分析中的模型建立过程,使用经验模态分解的方法,根据声纹数据自身的特征,产生一组自适应基底,并将数据分解为单一分量。结合贝叶
在北斗卫星短基线差分定位中,多路径效应和周跳是影响定位精度的主要因素。由于多路径效应属于随机误差,难以通过常规差分手段和数学建模方法消除,本文针对短基线差分定位过
IEEE 802.15.4通信网络拥有低功率、低能耗的优点。但也恰恰由于这一点,导致了共存无线传感网络在拥挤的ISM(Industrial Scientific Medical)频带上极易相互干扰,造成传输中